华为昇腾384引爆“超节点”竞争，国产芯片、整机厂联合定义新秩序！

抖音快讯 2025年08月12日 12:05 1 admin

华为昇腾384超节点（Atlas 900 A3 SuperPoD）面世以来，一直是业界关注的焦点。它不仅证明了国产算力在AI芯片和集群技术上的自主创新能力，更验证了超节点技术路径的可行性。国内AI芯片、服务器厂商纷纷开始拥抱“超节点”概念。这不仅是单一技术路径的成功，也是国产AI算力产业结构性突破的新开端。这一架构革命激起的涟漪正在迅速扩散——曦智光子以光互联技术卡位下一代超节点通信赛道，壁仞、沐曦加速GPU与超节点架构的适配，希姆计算则凭借RISC-V重新定义超级节点算力单元，服务器巨头厂商浪潮更是构建起超节点的“开放操作系统”…… 国产势力在系统级创新的历史机遇下，已悄然构筑起新兴千亿市场的入场券。

“超节点”的产业冲击与破局路径

从英伟达NVL72到华为昇腾384登场，不仅是硬件升级，更标志着AI基础设施从 “分散集群”向“一体化超级单元”的范式跃迁。以英伟达去年发布的GB200 NVL72超节点（72张英伟达GB200 GPU互联）为例，如果用传统方式实现，要先把GPU组成传统单机8卡服务器，再把9台单机通过网络互连。而NVL72通过18个Compute Tray（计算托架）和9个Switch Tray（网络交换托架）构成，其中，每个Compute Tray集成2颗GB200超级芯片（每颗超级芯片包含2颗Blackwell架构B200 GPU和1颗Grace CPU），通过这一架构，NVL72超节点的吞吐量可以比非超节点提升3倍以上。不过，国产算力面临着芯片代差、互连协议碎片化、以及机柜扩展瓶颈等挑战。在国内芯片制程没有进一步突破的前提下，有业内人士测算，匹配一个英伟达NVL72超节点的计算能力需要500张国产GPU，这显然是巨大的算力和能源开销。在制程受限的情况下，以“昇腾384超节点”为代表的系统架构创新成了当前主要的突破方向。昇腾384由12个计算柜和4个总线柜构成，算力总规模达300 PFLOPS。更重要的是，通过最佳负载均衡组网等方案，还能将昇腾超节点组成数万卡的Atlas 900 SuperCluster超节点集群，支持更大规模的模型训练。之所以能实现这种超强性能，是因为昇腾超节点并非修补式改进，而是系统级的彻底重构：首先，它打破了以CPU为中心的冯诺依曼架构，计算单元通过总线直接互访转变为更高效、更灵活的全对等架构；其次，新的总线技术重新定义了通信互联协议，减少系统开销，内存统一编址，超节点内全局TB级内存统一访问；第三，突破传统服务器间通信能力不足带来的系统性能瓶颈，实现通信能力10倍提升，让计算不再等待通信，因此提升了算力利用率和整体性能。华为这一突破后，国产AI算力产业纷纷大力拥抱“超节点”。

超节点智算的国产路径：光互连、光电共封装兴起

国内厂商在超节点规模扩展方面通常有两条主要路径：一是采用高电机柜，把更多的GPU放进单机柜里；二是使用多机柜，让GPU具备跨机柜的互连能力。不过，前者由于单机柜功耗限制，GPU密度提升存在瓶颈，因此通过增加机柜数量构建超节点，成为了突破物理限制的一个主要路径。在这一技术方向上，相比铜缆，光缆体现出了独有的远距离传输优势。曦智科技作为光电混合算力提供商，正在凭借分布式光交换架构等，成为超节点光通信的“技术定义者”。在WAIC 2025期间，曦智与国产GPU厂商合作推出的超节点方案，就展示了光电融合算力方案的潜力。曦智科技与沐曦合作的光互连、电交换超节点方案，采用线性直驱光互连技术，具有低延时、高带宽、低功耗的特点，并支持长距离传输，突破跨机柜连接的限制，支持8台标准服务器共64张xPU卡的高速互连，为大模型训练及推理提供更灵活、更高效的并行策略支持，从而提升集群性能。此外，国内首个光互连、光交换GPU超节点——光跃LightSphere X，也是基于曦智科技的分布式光交换技术，通过其光互连光交换芯片和壁仞科技的大算力通用GPU液冷模组与全新载板互连，并搭载了中兴通讯的高性能AI国产服务器及仪电智算云平台软件，该方案即将在上海仪电智算中心落地。通过多计算芯粒（Chiplet）与CoWoS 2.5D封装协同设计的GPU模组，使得光跃LightSphere X拥有强大算力。基于大算力（单卡1P级）通用GPU液冷模组，其集群训推性能得到了增强。据了解，该方案的核心价值在于：通过采用光互连技术增加机柜数量构建起超节点，突破了传统互连方式下超节点的物理限制。在落地应用中，能够摆脱单机柜功耗束缚，支持万卡级弹性扩展，既兼容现有机房设施降低部署成本，又可按算力需求动态调整超节点规模，实现分阶段建设。光互连已存在20多年，经历了可插拔光模块—近封装/板载光学—共封装光学—3D共封装光学（3D CPO）的演进路径，单芯片带宽得到了指数级提升。据曦智科技介绍，3D CPO将会比现有互连方式再提高1-2个数量级的互连带宽，且很可能在五年内实现。值得注意的是，曦智科技还联合燧原推出了国内首款xPU-CPO光电共封装原型系统，通过将光学引擎与计算芯片（xPU）在基板上实现光电共封装，缩短了电芯片与光芯片的传输距离。与传统可插拔光学相比，大幅提升了信号完整性，并降低了损耗和延迟，以及系统功耗，有效提高光电转换的稳定性。从公开资料看，这是国内首次采用CPO技术实现GPU直接出光的成功案例，验证了xPU-CPO光电共封装技术的可行性与技术方向。

RISC-V超级节点智算芯片，迈向AI普惠

希姆计算是RISC-V阵营AI发展的先锋，日前，该公司宣布正在研发超级节点，打造RISC-V智算芯片的新体系。不过，相比于昇腾384、以及曦智协同国产算力厂商聚焦于硬件资源的高密度整合，希姆计算是将基础计算单元颗粒度、可扩展性与灵活度推向极致的“超级节点”，与物理上的“超节点”概念在设计理念上有相似性。具体而言，希姆计算与RISC-V CPU方案提供商CoreLab Tech、以及基于RISC-V的网络芯片开发商益思芯达成了合作——向CoreLab Tech定制基于Tenstorrent IP的高性能RISC-V CPU，同时携手益思芯研发面向AI集群互联的高带宽DPU。未来，希姆计算将构建自研“CPU +AI+DPU”的完整AI原生计算体系单元，结合已自研一年并投入运营的垂直场景智能体开发平台，实现从端侧AI垂域软硬件方案应用到云端大规模算力的全场景覆盖。 RISC-V三芯联动的战略价值是什么？希姆计算认为，CPU+AI+DPU构成的超级节点子系统，通过统一架构可以实现软硬件的极致优化。依托同一套RISC-V指令集，未来可以实现CPU通用计算单元、AI专用加速单元和DPU通信单元之间的统一访存和高效协同，在软硬件设计、生态构建等方面具有巨大优势。当然，这也要求架构既要有坚实的生态基础和丰富的用户群体，又要具备足够的架构灵活性，以支持未来AI应用的升级和智算系统的演进。从算力部署灵活度和扩展性来看，CPU+AI+DPU的方案通过“单CPU→CPU+AI（网络直连）→CPU+AI+DPU” 的阶梯式配置模式，可以将基础计算单元的颗粒度、可扩展性与灵活度推向极致——既能覆盖从端侧、边缘到云端的全场景算力需求，又能兼容异构环境。而且，CoreLab Tech的系列CPU IP，与益思芯全规格的DPU能力形成互补，为AI计算单元增加了多维度的灵活性，支持按需组合算力模组，实现了AI算力的模组化。在如火如荼的超节点赛道上，希姆计算以另一种方式诠释了“超节点”概念。其本质上并非固定的物理集群，而是从架构的弹性上另辟蹊径，通过可自由组合的“算力乐高单元”，打造未来智算所需超级算力节点。

超节点生态重构，谁在定义新秩序？

在超节点生态中，服务器厂商扮演着系统集成与场景落地的关键角色。正如浪潮信息所验证的：超节点不仅是硬件堆叠，更需要通过系统级创新释放集群算力。浪潮最新发布了元脑SD200超节点AI服务器，基于OCM（开放算力模组）与OAM（开放加速模块）两大架构。主要围绕CPU和内存进行解耦设计，具备高度模块化与标准化优势，支持系统供电、管理、风扇等组件的独立升级与更换，大幅提升了服务器的灵活性与可维护性。同时，OCM支持“一机多芯”，可快速适配Intel、AMD、Arm等多种计算平台。在真实部署环境下，SD200超节点满机运行DeepSeek R1全参模型推理性能提升比为370%，满机运行Kimi K2全参模型推理性能提升比为170%。该超节点架构统一了加速卡的尺寸、电气接口和散热设计，使来自不同厂商的GPU、NPU等AI加速器可在同一系统中协同运行，并通过高速互联技术实现加速卡之间的低延迟直连，有效满足大模型训练与推理对带宽的极致要求。通过将OCM与OAM架构有机融合，浪潮为业界提供了一种开放的超节点技术架构。浪潮方面称，超节点架构本质上是系统化思维的产物，需要在现有技术、生态和成本约束下，从系统层面去打破芯片本身的性能边界，从而最大化用户价值。智算中心正在从“机柜级密度革命”迈向“数据中心级系统工程挑战”，算力密度将持续攀升，下一步，能源供给、冷却方式和系统管理也随之进入全面革新期。从芯片到架构，从系统到生态，只有持续开放、拥抱合作，才能构筑真正普惠、可持续的智算基石。

写在最后

万亿参数大模型与多模态训练的崛起，正推动国产算力集群迈入“万卡协同”时代。超节点架构通过深度整合算力资源，构建起低延迟、高带宽的统一算力实体，已成为支撑这一演进的关键技术路径。正如我们逐渐所看到的，超节点竞争不在单点算力的对决，而在系统创新的生态引力。当中国AI算力产业走过“单点突破”的艰难阶段，超节点架构带来的“系统级创新”，为中国本土产业链提供了绝佳的发展机遇，上下游厂商都有望这个过程中找到属于自己的突破点。这不仅会加速全产业创新，更将释放超节点的算力潜能，推动中国AI算力产业开启新的发展阶段。