首页 抖音快讯文章正文

华为昇腾384引爆“超节点”竞争,国产芯片、整机厂联合定义新秩序!

抖音快讯 2025年08月12日 12:05 1 admin

华为昇腾384超节点(Atlas 900 A3 SuperPoD)面世以来,一直是业界关注的焦点。它不仅证明了国产算力在AI芯片和集群技术上的自主创新能力,更验证了超节点技术路径的可行性。国内AI芯片、服务器厂商纷纷开始拥抱“超节点”概念。这不仅是单一技术路径的成功,也是国产AI算力产业结构性突破的新开端。 这一架构革命激起的涟漪正在迅速扩散——曦智光子以光互联技术卡位下一代超节点通信赛道,壁仞、沐曦加速GPU与超节点架构的适配,希姆计算则凭借RISC-V重新定义超级节点算力单元,服务器巨头厂商浪潮更是构建起超节点的“开放操作系统”…… 国产势力在系统级创新的历史机遇下,已悄然构筑起新兴千亿市场的入场券。

华为昇腾384引爆“超节点”竞争,国产芯片、整机厂联合定义新秩序!

“超节点”的产业冲击与破局路径

从英伟达NVL72到华为昇腾384登场,不仅是硬件升级,更标志着AI基础设施从 “分散集群”向“一体化超级单元”的范式跃迁。 以英伟达去年发布的GB200 NVL72超节点(72张英伟达GB200 GPU互联)为例,如果用传统方式实现,要先把GPU组成传统单机8卡服务器,再把9台单机通过网络互连。而NVL72通过18个Compute Tray(计算托架)和9个Switch Tray(网络交换托架)构成,其中,每个Compute Tray集成2颗GB200超级芯片(每颗超级芯片包含2颗Blackwell架构B200 GPU和1颗Grace CPU),通过这一架构,NVL72超节点的吞吐量可以比非超节点提升3倍以上。 不过,国产算力面临着芯片代差、互连协议碎片化、以及机柜扩展瓶颈等挑战。在国内芯片制程没有进一步突破的前提下,有业内人士测算,匹配一个英伟达NVL72超节点的计算能力需要500张国产GPU,这显然是巨大的算力和能源开销。 在制程受限的情况下,以“昇腾384超节点”为代表的系统架构创新成了当前主要的突破方向。昇腾384由12个计算柜和4个总线柜构成,算力总规模达300 PFLOPS。更重要的是,通过最佳负载均衡组网等方案,还能将昇腾超节点组成数万卡的Atlas 900 SuperCluster超节点集群,支持更大规模的模型训练。 之所以能实现这种超强性能,是因为昇腾超节点并非修补式改进,而是系统级的彻底重构: 首先,它打破了以CPU为中心的冯诺依曼架构,计算单元通过总线直接互访转变为更高效、更灵活的全对等架构; 其次,新的总线技术重新定义了通信互联协议,减少系统开销,内存统一编址,超节点内全局TB级内存统一访问; 第三,突破传统服务器间通信能力不足带来的系统性能瓶颈,实现通信能力10倍提升,让计算不再等待通信,因此提升了算力利用率和整体性能。 华为这一突破后,国产AI算力产业纷纷大力拥抱“超节点”。

超节点智算的国产路径:光互连、光电共封装兴起

国内厂商在超节点规模扩展方面通常有两条主要路径:一是采用高电机柜,把更多的GPU放进单机柜里;二是使用多机柜,让GPU具备跨机柜的互连能力。不过,前者由于单机柜功耗限制,GPU密度提升存在瓶颈,因此通过增加机柜数量构建超节点,成为了突破物理限制的一个主要路径。 在这一技术方向上,相比铜缆,光缆体现出了独有的远距离传输优势。曦智科技作为光电混合算力提供商,正在凭借分布式光交换架构等,成为超节点光通信的“技术定义者”。在WAIC 2025期间,曦智与国产GPU厂商合作推出的超节点方案,就展示了光电融合算力方案的潜力。 曦智科技与沐曦合作的光互连、电交换超节点方案,采用线性直驱光互连技术,具有低延时、高带宽、低功耗的特点,并支持长距离传输,突破跨机柜连接的限制,支持8台标准服务器共64张xPU卡的高速互连,为大模型训练及推理提供更灵活、更高效的并行策略支持,从而提升集群性能。 此外,国内首个光互连、光交换GPU超节点——光跃LightSphere X,也是基于曦智科技的分布式光交换技术,通过其光互连光交换芯片和壁仞科技的大算力通用GPU液冷模组与全新载板互连,并搭载了中兴通讯的高性能AI国产服务器及仪电智算云平台软件,该方案即将在上海仪电智算中心落地。通过多计算芯粒(Chiplet)与CoWoS 2.5D封装协同设计的GPU模组,使得光跃LightSphere X拥有强大算力。基于大算力(单卡1P级)通用GPU液冷模组,其集群训推性能得到了增强。 据了解,该方案的核心价值在于:通过采用光互连技术增加机柜数量构建起超节点,突破了传统互连方式下超节点的物理限制。在落地应用中,能够摆脱单机柜功耗束缚,支持万卡级弹性扩展,既兼容现有机房设施降低部署成本,又可按算力需求动态调整超节点规模,实现分阶段建设。 光互连已存在20多年,经历了可插拔光模块—近封装/板载光学—共封装光学—3D共封装光学(3D CPO)的演进路径,单芯片带宽得到了指数级提升。据曦智科技介绍,3D CPO将会比现有互连方式再提高1-2个数量级的互连带宽,且很可能在五年内实现。 值得注意的是,曦智科技还联合燧原推出了国内首款xPU-CPO光电共封装原型系统,通过将光学引擎与计算芯片(xPU)在基板上实现光电共封装,缩短了电芯片与光芯片的传输距离。与传统可插拔光学相比,大幅提升了信号完整性,并降低了损耗和延迟,以及系统功耗,有效提高光电转换的稳定性。 从公开资料看,这是国内首次采用CPO技术实现GPU直接出光的成功案例,验证了xPU-CPO光电共封装技术的可行性与技术方向。

RISC-V超级节点智算芯片,迈向AI普惠

希姆计算是RISC-V阵营AI发展的先锋,日前,该公司宣布正在研发超级节点,打造RISC-V智算芯片的新体系。 不过,相比于昇腾384、以及曦智协同国产算力厂商聚焦于硬件资源的高密度整合,希姆计算是将基础计算单元颗粒度、可扩展性与灵活度推向极致的“超级节点”,与物理上的“超节点”概念在设计理念上有相似性。 具体而言,希姆计算与RISC-V CPU方案提供商CoreLab Tech、以及基于RISC-V的网络芯片开发商益思芯达成了合作——向CoreLab Tech定制基于Tenstorrent IP的高性能RISC-V CPU,同时携手益思芯研发面向AI集群互联的高带宽DPU。未来,希姆计算将构建自研“CPU +AI+DPU”的完整AI原生计算体系单元,结合已自研一年并投入运营的垂直场景智能体开发平台,实现从端侧AI垂域软硬件方案应用到云端大规模算力的全场景覆盖。 RISC-V三芯联动的战略价值是什么?希姆计算认为,CPU+AI+DPU构成的超级节点子系统,通过统一架构可以实现软硬件的极致优化。依托同一套RISC-V指令集,未来可以实现CPU通用计算单元、AI专用加速单元和DPU通信单元之间的统一访存和高效协同,在软硬件设计、生态构建等方面具有巨大优势。当然,这也要求架构既要有坚实的生态基础和丰富的用户群体,又要具备足够的架构灵活性,以支持未来AI应用的升级和智算系统的演进。 从算力部署灵活度和扩展性来看,CPU+AI+DPU的方案通过“单CPU→CPU+AI(网络直连)→CPU+AI+DPU” 的阶梯式配置模式,可以将基础计算单元的颗粒度、可扩展性与灵活度推向极致——既能覆盖从端侧、边缘到云端的全场景算力需求,又能兼容异构环境。而且,CoreLab Tech的系列CPU IP,与益思芯全规格的DPU能力形成互补,为AI计算单元增加了多维度的灵活性,支持按需组合算力模组,实现了AI算力的模组化。 在如火如荼的超节点赛道上,希姆计算以另一种方式诠释了“超节点”概念。其本质上并非固定的物理集群,而是从架构的弹性上另辟蹊径,通过可自由组合的“算力乐高单元”,打造未来智算所需超级算力节点。

超节点生态重构,谁在定义新秩序?

在超节点生态中,服务器厂商扮演着系统集成与场景落地的关键角色。正如浪潮信息所验证的:超节点不仅是硬件堆叠,更需要通过系统级创新释放集群算力。 浪潮最新发布了元脑SD200超节点AI服务器,基于OCM(开放算力模组)与OAM(开放加速模块)两大架构。主要围绕CPU和内存进行解耦设计,具备高度模块化与标准化优势,支持系统供电、管理、风扇等组件的独立升级与更换,大幅提升了服务器的灵活性与可维护性。同时,OCM支持“一机多芯”,可快速适配Intel、AMD、Arm等多种计算平台。 在真实部署环境下,SD200超节点满机运行DeepSeek R1全参模型推理性能提升比为370%,满机运行Kimi K2全参模型推理性能提升比为170%。 该超节点架构统一了加速卡的尺寸、电气接口和散热设计,使来自不同厂商的GPU、NPU等AI加速器可在同一系统中协同运行,并通过高速互联技术实现加速卡之间的低延迟直连,有效满足大模型训练与推理对带宽的极致要求。通过将OCM与OAM架构有机融合,浪潮为业界提供了一种开放的超节点技术架构。 浪潮方面称,超节点架构本质上是系统化思维的产物,需要在现有技术、生态和成本约束下,从系统层面去打破芯片本身的性能边界,从而最大化用户价值。智算中心正在从“机柜级密度革命”迈向“数据中心级系统工程挑战”,算力密度将持续攀升,下一步,能源供给、冷却方式和系统管理也随之进入全面革新期。从芯片到架构,从系统到生态,只有持续开放、拥抱合作,才能构筑真正普惠、可持续的智算基石。

写在最后

万亿参数大模型与多模态训练的崛起,正推动国产算力集群迈入“万卡协同”时代。超节点架构通过深度整合算力资源,构建起低延迟、高带宽的统一算力实体,已成为支撑这一演进的关键技术路径。 正如我们逐渐所看到的,超节点竞争不在单点算力的对决,而在系统创新的生态引力。当中国AI算力产业走过“单点突破”的艰难阶段,超节点架构带来的“系统级创新”,为中国本土产业链提供了绝佳的发展机遇,上下游厂商都有望这个过程中找到属于自己的突破点。这不仅会加速全产业创新,更将释放超节点的算力潜能,推动中国AI算力产业开启新的发展阶段。

发表评论

泰日号Copyright Your WebSite.Some Rights Reserved. 网站地图 备案号:川ICP备66666666号 Z-BlogPHP强力驱动