首页 热门资讯文章正文

AI工厂:国产GPU的算力进化

热门资讯 2025年08月13日 13:39 1 admin

训练大模型,有点像炼丹。而算力,就是炼丹炉里的柴。只有炉火纯青,才能真正炼出好丹。


AI工厂:国产GPU的算力进化


过去这几年,AI浪潮蓬勃发展,大模型的参数规模越来越大。炼丹难度不断增加,往里面投的柴(算力),也越来越多。


如今,AI的发展已经进入了新的阶段。大模型参数规模从千亿走向万亿,对算力的需求,也达到空前的规模。AI的应用也在加速。Agentic AI的爆发,也对算力提出了更高的要求。


面对这些新的挑战,业界逐渐意识到,当炼丹难度(参数规模)达到一定程度,仅仅靠“堆料(算力)”,已经无法进行有效的应对。


那么,到底该怎么做,才能真正满足AI下一步发展的需求呢?算力的供给模式,是否需要进行彻底的变革?又该如何进行变革?


前不久,在WAIC 2025期间,我聆听了摩尔线程创始人兼CEO张建中的一场演讲。在演讲中,他对上面提到的问题进行了全面且系统的解答。


张建中提出了一个创新的概念——AI工厂(AI Foundry)


AI工厂:国产GPU的算力进化


他认为,算力的供给模式正在发生巨变。构建万卡集群,并非一万张GPU卡的简单堆叠,而是一项高度复杂的超级系统工程。它涉及到超大规模的组网互联、高效率的集群计算、长期稳定性和高可用性等诸多技术难题。想要真正实现有效的算力供给,就必须通过构建新一代AI训练基础设施,即AI工厂(AI Foundry)。


这场演讲的信息量很大,给我带来了很大的启发。张建中真正从宏观到微观,讲明白了该如何应对AI所带来的算力需求爆炸式增长,打造真正好用的算力基础设施。


接下来,我就基于演讲的内容,结合个人的理解,给大家做一个深入解读。



AI Foundry:生产先进模型的超级工厂


Foundry这个概念源自芯片半导体产业,指的是芯片代工厂,专门生产芯片的地方。


摩尔线程提出的AI Foundry,则是专门生产“智能”的地方。


之所以提出AI工厂,本质在于AI算力的供给模式正在发生变化。传统的供给模式是前面说的“堆卡”——生产算力更强、数量更多的算卡,然后进行数量堆叠,以此满足用户需求。


如今,大模型参数规模不断增长,更新迭代的速度不断加快,对算力的要求也越来越高。大模型本身也在从大语言模型向多模态和世界模型转变,这就使得整个AI计算基础设施都必须进行自我变革,以运行和支持一切模型。


换言之,AI算力供给,需要从粗放的“作坊式”向精细的“工厂式”进行转变


芯片工厂,为了造出更强大的芯片,需要不断研发和尝试更先进的工艺制程,需要在软件、硬件、流程、管理等各个维度进行提升,以此来不断突破物理极限,提升生产力。


而AI工厂,为了提供更强大的算力,需要高效率、高能量、高产出的一套方式方法,在单卡算力的基础上,综合考虑网络拓扑、片间互联、卡间互联、节点间互联、集群管理、效率、算法、工具、算子库、框架等一系列因素。这些,也就是AI工厂的能力。


当千卡集群向万卡集群演进,AI工厂的必要性就愈加凸显。在算力供给侧,需要重新搭建物理拓扑结构,重新设计管理方式,重新优化集群系统上的任务调度,重新开发和提升及各种不同的算子和效率。


摩尔线程将所有的要素进行了完整梳理,提出了五大核心要素,也就是:加速计算通用性、单芯片有效算力、单节点效率、集群效率、集群稳定性。


AI工厂:国产GPU的算力进化


把每个核心要素都做到极致,打造端到端的能力,才是真正优秀的AI工厂,才有核心竞争力,才能获得最后的成功。



五大核心要素,构筑AI 工厂性能底座


接下来,我们就分别解读一下这五大核心要素。


加速计算通用性


回望GPU的发展史,其核心角色始终是加速计算。摩尔线程进一步指出,全功能GPU是加速计算的核心驱动力。也就是说,全功能GPU不能只用于单个功能,而应该实现多场景的覆盖,其核心体现为四大引擎的协同:AI计算加速、图形渲染、物理仿真和科学计算、超高清视频编解码。这构成了摩尔线程全功能GPU的核心能力谱系。


支持AI全场景加速,就需要全功能GPU,它是一个功能完备的通用底座,也可以理解为是一个可以通吃所有领域行业的通用加速平台。


AI工厂:国产GPU的算力进化


除了功能完备之外,全功能GPU还要实现“精度完整”。这里,就要提到FP64、FP32、FP16、FP8、FP4和INT8等概念。


这些是IEEE定义的各种不同数据类型。详细解释这些概念稍微有点复杂。大家可以简单理解——早期的时候,业界都是用FP32进行训练,后来用FP16,并以此作为标配。如今,用FP8做大模型训练,也被证明是一个不错的选择。


摩尔线程支持从FP64至INT8的完整精度谱系,能针对多种精度进行混合训练。


单芯片有效算力


芯片是算力的核心单元。提升单芯片的有效算力,是驱动AI工厂高效运转的关键。


需要注意的是,芯片的有效算力并不仅仅是指芯片的理论峰值算力,更重要的是在实际应用场景中能够稳定、高效地发挥出来的算力。


摩尔线程在芯片设计上下了很大的功夫,通过优化芯片架构、提升计算性能、优化内存和通信效率等多种手段,来确保单GPU的有效算力能够进一步突破极限。


先看看架构。


摩尔线程采用了自研的MUSA架构(Meta-computing Unified System Architecture,元计算统一架构)。这个Meta-computing(元计算)的命名,体现出这个架构支持所有的计算场景。不仅满足当前的计算需求,也要应对未来的计算需求。


AI工厂:国产GPU的算力进化


统一架构,完整来说,是多引擎可配置统一系统架构。这意味着,架构从顶层角度考虑到了计算、通信、存储、指令集之间的相互交接、相互协调、相互调度的功能。同样也是“一个架构服务多个领域”。


MUSA架构的核心能力,是可以利用统一的编程指令集,驱动架构下的所有引擎,包括图形处理引擎、通用计算引擎、多媒体引擎、通信引擎等。计算、通信、存储、调度、加速等工作任务的协同融合,都被整合在统一的底层引擎之下,便于用户和开发者去调用。


MUSA还有一个特点,是资源池化


它通过硬件资源池化及动态资源调度技术,构建了全局共享的计算、内存与通信资源池。这一设计不仅突破了传统GPU功能单一的限制,还在保障通用性的同时显著提升了资源利用率。


MUSA架构的引擎中,有两个专门用于AI计算加速系统的引擎,分别是张量计算引擎(TCE)张量访存引擎(TME)


前者主要负责执行AI计算任务中的核心运算,如矩阵乘法等,是算力输出的“主力军”。而后者则专注于优化数据访问模式,减少内存延迟,提高数据吞吐量,确保计算引擎能够高效、稳定地获取所需数据。


AI工厂:国产GPU的算力进化


在池化的基础上,通过引擎异步流水(ATB)技术,把底层各种不同的硬件加速流水线(例如图形计算、超级计算、Tensor计算、编解码等)变成了一根根管道,融合在一起随意调度。


AI工厂:国产GPU的算力进化


基于一个资源池,所有的结果都共享一个内存,所有的引擎在上面工作,所有的数据、存在一个地方。这就是最典型的数据驱动、引擎支持和引擎集散的统一系统架构,可以让实现最高的工作效率。


在计算层面,前面我们已经提到,摩尔线程的GPU全面支持INT8/FP8/FP16/BF16/TF32等多种混合精度计算。


作为国内首批实现FP8算力量产的GPU厂商,摩尔线程的FP8技术通过快速格式转换、动态范围智能适配和高精度累加器等创新设计,在保证计算精度的同时,将Transformer计算性能提升约30%。


AI工厂:国产GPU的算力进化


在内存系统方面,通过多精度近存规约引擎、低延迟Scale-Up、通算并行资源隔离等技术,实现了50%的带宽节省和60%的延迟降低。


在通信和互联方面,基于独创的ACE异步通信引擎,减少了15%的计算资源损耗。


AI工厂:国产GPU的算力进化


MTLink2.0互联技术,提供了高出国内行业平均水平60%的带宽,为大规模集群部署奠定了坚实基础。


单节点效率


刚才说的是单芯片,现在,我们再往上一级,看看单节点。一个节点包括了多个芯片,涉及到了芯片之间的互联协同。


在这个环节,摩尔线程的核心创新包括:任务调度优化、极致性能算子库、通信效能跃升、低精度计算效率革新、开发生态完善。


任务调度优化,是指GPU驱动任务调度优化。体现在两个方面:首先,核函数(计算任务从CPU主机传输到GPU设备并执行的过程)启动时间相比业界平均时间缩短了50%。其次,支持千次计算指令单次并行下发。摩尔线程的任务之间延迟远远小于国际主流芯片公司,实现了:"个子比别人小、但跳得比别人高"。


AI工厂:国产GPU的算力进化


在算子库方面,摩尔线程的muDDN算子进行了极致性能优化,相比cuDDN有10-20%的领先。而且,摩尔线程的GEMM算子算力利用率达98%,Flash Attention算子算力利用率突破95%。这也是非常出色的成绩。


AI工厂:国产GPU的算力进化


在通信方面,摩尔线程在兼顾传输速率的基础上,重点优化了稳定性、可靠性和带宽利用率。


他们的MCCL通信库,可以实现97%的RDMA网络带宽利用率。基于异步通信引擎优化计算通信并行,大模型训练集群整体性能可以提升10%。


AI工厂:国产GPU的算力进化


在低精度计算效率方面,除了对FP8 Transformer的支持,摩尔线程还有一个行业首创的技术创新——细粒度重计算(Recompute),计算开销可以减少4倍。


最后是开发生态方面。


摩尔线程推出了Triton-MUSA编译器 + MUSA Graph,可以实现DeepSeek R1推理加速1.5倍,全面兼容Triton等主流框架。


为了帮助开发者降低开发门槛,提升效率,摩尔线程还打造了完整的软件开发套件。


集群效率


节点再往上,就是集群。我们可以看看在集群效率提升上,摩尔线程做了些什么。


摩尔线程将自家研发的集群系统方案命名为KUAE(夸娥)


AI工厂:国产GPU的算力进化


这个集群通过5D大规模分布式并行计算技术,可以实现上千节点的高效协作,推动AI基础设施从单点优化迈向系统工程级突破。


所谓的“5D”,是指DP数据并行、TP张量并行、SP序列并行、EP专家并行、PP流水线并行的5大类型任务可以大规模、分布式的并行训练。


KUAE能够做到端到端的模型训练支持,包括数据处理、预训练、后训练等。而且,KUAE还可以支持所有的模型种类,包括LLM/VLM、混合专家模型、世界模型、具身智能模型等。


为了提升集群的训练效率,实现训练性能的最优化,KUAE提供了一套性能仿真工具——SIMUMAX


AI工厂:国产GPU的算力进化


它可以自动找出一个最佳的并行策略,满足用户的模型训练需求,协助进行性能优化。SIMUMAX还可以精准模拟FP8混合精度训练与算子融合,为DeepSeek等模型缩短训练周期提供科学依据。


集群稳定性


集群训练,稳定性是一个大问题。对于训练过程中可能发生的中断,业界普遍采用CheckPoint进行应对。也就是定期进行备份,中断后再进行恢复。


在此基础上,摩尔线程创新提出了CheckPoint加速方案,利用RDMA技术,将百GB级备份恢复时间从数分钟压缩至1秒,大幅缩短了中断时间,提升了训练效率。


AI工厂:国产GPU的算力进化


摩尔线程还专门发明了一个创新的集群稳定性管理方案——零中断容错技术。


传统模式下,如果发生硬件故障导致训练中断,需要先替换硬件,然后写读Checkpoint,耽误大量时间,增加了训练成本。


AI工厂:国产GPU的算力进化


采用摩尔线程的零中断容错技术,故障发生时,仅隔离受影响节点组,其余节点继续训练,备机无缝接入,全程无中断。这一方案使KUAE集群的有效训练时间占比超过99%,大幅降低中断恢复开销。


摩尔线程还独创了多维度训练洞察体系,实现对训练过程的动态监测与智能诊断。如果发现满节点,就可以及时进行处理维护。这使得集群的异常处理效率提升了50%。结合集群巡检与起飞检查,训练成功率提高10%,为大规模AI训练提供稳定保障。



最后的话


前面介绍了摩尔线程AI工厂的很多技术细节。我们可以看出,他们对算力的理解是相当全面而且深刻的。作为一家半导体创新创业的公司,能拥有这么深厚的技术积累,确实非常不容易。


AI工厂作为一个支撑全场景算力需求的超级工厂,其背后的技术挑战超乎想象。从底层硬件设计到上层软件生态,摩尔线程都要进行深入的创新和优化,以确保AI工厂的高效运转。他们的努力不仅体现在单个组件的性能提升上,更在于整个系统的协同优化,实现了从单点创新到系统级效能的飞跃。


总而言之,摩尔线程的AI工厂不仅是其算力战略的体现,或许也将为整个行业带来新的范式。


以摩尔线程为代表的国产算力企业正在加速崛起,他们的每一步都走得非常扎实。我们有理由相信,在这些企业的共同努力下,我们国家的算力产业一定会加速缩小和国际巨头的差距,并最终实现超越。



发表评论

泰日号Copyright Your WebSite.Some Rights Reserved. 网站地图 备案号:川ICP备66666666号 Z-BlogPHP强力驱动