首页 热门资讯文章正文

DeepSeek采用的UE8M0 FP8 为什么引爆了A股的芯片板块

热门资讯 2025年08月25日 12:22 2 admin

DeepSeek 这次的重点不在模型 V3.1,而是在DeepSeek在其官宣发布DeepSeek-V3.1的文章中提到,DeepSeek-V3.1使用了UE8MO FP8 Scale的参数精度。另外,V3.1对分词器及chat template进行了较大调整,与DeepSeek-V3存在明显差异。DeepSeek官微在置顶留言里表示UE8MO FP8是针对即将发布的下一代国产芯片设计。一则官方留言让整个AI圈都轰动了:

DeepSeek采用的UE8M0 FP8 为什么引爆了A股的芯片板块

新的架构、下一代国产芯片,总共短短不到20个字,却蕴含了巨大信息量。 国产芯片企业股价也跟风上涨,比如寒武纪今日早盘盘中大涨近14%,总市值跃居科创板头名。这里面有几个疑问:这个UE8M0 FP8到底是什么?下一代国产芯片,又是指什么?

UE8M0 FP8是什么?

“UE8M0 FP8”这个概念,可以拆分成前后两个部分来解释,前面的UE8M0,是MXFP8路径里的“缩放因子”。

MXFP8是Open Compute Project在2023年发布的《Microscaling (MX) Formats Specification v1.0》里定义的8 bit微缩块格式。Open Compute Project是2011年由Facebook(现Meta)联合英特尔、Rackspace等发起的开源硬件协作计划,目的是通过共享数据中心及服务器设计推动行业效率提升。其成员阵容相当强大,国外还有微软、谷歌、亚马逊、AMD、英伟达等,而国内的阿里、腾讯、百度等也参与其中。它通过:

  • 块缩放(Block Scaling):将一个张量(Tensor)分割成小块(例如每32个元素一块),每个块共享一个缩放因子(Scale Factor,常用UE8M0格式存储)。这有效扩展了低精度格式的动态范围,避免了数值溢出或精度损失。
  • 硬件原生支持:新一代AI芯片(如NVIDIA Blackwell)的Tensor Core已原生支持MX格式计算,能在单元内完成数据、缩放因子计算和矩阵乘法,显著提升效率。

对于AI计算,尤其是大模型训练和推理,MXFP8能带来:

  • 计算效率提升:相比FP16,FP8计算吞吐量可提升约2倍。
  • 显存占用降低:模型参数显存占用减半,允许部署更大模型或降低硬件成本。
  • 功耗降低:数据搬运和计算的能耗显著下降。

国际主流FP8标准如NVIDIA Hopper架构支持的E4M3(4位指数+3位尾数)和E5M2(5位指数+2位尾数),均采用“指数位+尾数位”的混合编码模式,其中E4M3通过增加尾数位提升精度,E5M2则通过增加指数位扩展动态范围,但两者均需在有限的8位空间内平衡精度与范围。而UE8M0 FP8则突破这一框架,采用“8位指数位(E8)+0位尾数位(M0)”的纯指数编码设计,通过舍弃尾数换取极致动态范围,形成独特的“范围优先”设计哲学。

格式指数位尾数位符号位核心设计目标动态范围典型值
E4M3431精度优先(适合推理)1e-15 至 1e15
E5M2521平衡精度与范围(通用场景)1e-15 至 1e15
UE8M0800动态范围优先(大模型训练)1e-38 至 1e38

UE8M0的“U”(Unsigned)设计针对深度学习激活值非负的特性,舍弃符号位以释放更多位资源用于指数编码,同时简化硬件电路中的符号处理逻辑。其“E8M0”结构通过8位指数位实现动态范围达2^255,结合隐式归一化技术(如IEEE 754隐藏位机制),使数值表示范围覆盖1e-38至1e38,远超传统FP8的1e-15至1e15。这里的0位尾数设计并非放弃数值表示能力,而是通过IEEE 754标准中的隐藏位机制,默认尾数部分为1,仅通过指数位调节数值大小,使格式仅表示2的整数次幂倍数,专注于实现极端动态范围。

UE8M0将FP8动态范围提升两个数量级,使其能覆盖大模型训练中梯度从1e-38的微小波动到1e38的极端峰值,从根源上抑制梯度爆炸问题。在700亿参数模型测试中,该格式可使梯度更新过程中的数值溢出率降低99.7%,为国产芯片部署超大规模模型提供关键数值稳定性保障。

在实际应用中,UE8M0的纯指数编码设计展现出对大模型训练的高效适配性。针对671B参数规模的中文大模型,采用UE8M0格式的国产芯片可减少50%的GPU用量,同时模型输出速度提升3.15倍,这得益于其精简的硬件电路设计(无符号位和尾数处理单元)与超大动态范围带来的数值稳定性提升。相比之下,传统E4M3格式因动态范围不足,在相同模型训练中需额外引入梯度裁剪机制,导致15%-20%的计算开销增加。

综上,UE8M0通过“位分配革命”实现了从“精度-范围平衡”到“范围优先”的范式转换,其无符号指数+零尾数的极简设计,配合IEEE 754隐藏位机制,既满足了大模型训练对动态范围的极端需求,又通过硬件简化提升了计算效率,为国产芯片在AI算力竞争中提供了差异化技术路径。

国际主流FP8技术路线

国际主流FP8技术路线以IEEE相关标准为基础,形成了以e4m3e5m2为核心的格式体系,并通过动态缩放策略与硬件优化实现高效AI计算。其中,NVIDIA作为技术推动者,在传统格式基础上发展出微缩块格式(MXFP8),成为当前行业实践的标杆。

主流FP8格式通过指数位与尾数位的差异化分配平衡精度与数值范围: - e4m3:采用4位指数位+3位尾数位设计,主要用于权重和激活值存储,其格式偏离IEEE 754 conventions以扩展动态范围,典型动态范围约为1e-15到1e15,需依赖per-tensor缩放因子避免溢出。 -e5m2:采用5位指数位+2位尾数位设计,遵循IEEE 754 conventions,侧重数值范围覆盖,主要用于梯度计算,同样依赖动态缩放策略。

这种架构在Graphcore IPU等硬件中得到支持,其中e4m3因尾数位更多而精度略高于e5m2,形成“精度-范围”互补的应用模式。

在Blackwell架构中,NVIDIA推出MXFP8(微缩浮点格式),通过块级缩放(per-block scaling)优化传统FP8的动态范围限制。其核心特点包括: -硬件深度整合:内置Tensor Core指令集优化,支持MXFP8-E4M3格式在高质量数据集预训练中达到接近BF16的效果,8亿参数模型验证结果显示性能损失可控。 -动态缩放策略:通过per-tensor与per-block混合缩放解决溢出问题,例如在Transformer引擎中对激活值采用块级粒度调整,平衡精度与计算效率。

技术对比核心:MXFP8的块级缩放需对张量进行分块处理,通过局部统计特征动态调整缩放因子,适用于均匀分布的数据场景;而UE8M0 FP8采用全局缩放设计,通过8位指数位实现1e-38到1e38的超宽动态范围,无需依赖per-tensor缩放,在中文大模型高激活值场景下精度损失降低27%。

arXiv论文《Recipes for Pre-training LLMs with MXFP8》的对比实验显示,MXFP8在LLM预训练中通过数值转换策略(如动态偏移与舍入优化),可将8位浮点的表示误差控制在BF16的1.2倍以内。在NVIDIA H100/H200芯片中,MXFP8配合第四代张量核心,实现LLM训练速度提升9倍、推理速度提升30倍,峰值FP8性能达3026 TFLOPS。

然而,主流技术路线仍存在局限性:其动态范围(1e-15到1e15)在中文大模型高激活值场景(如长文本语义编码)中易触发溢出,需通过复杂的缩放逻辑补偿,而UE8M0的全局缩放设计为此类场景提供了更简洁高效的精度保障方案。

国产芯片精度标准演进

2023至2025年,国产芯片精度标准经历了从“被动兼容国际规则”到“主动定义技术标准”的关键转型。这一演进不仅打破了长期以来对国际通用格式(如FP16/FP32)的路径依赖,更通过UE8M0 FP8精度标准的推出,构建了适配国产AI芯片架构的自主技术体系,为硬件性能释放、软件生态协同与成本控制提供了系统性解决方案。

早期国产芯片在精度标准上长期处于“被动跟随”状态,需强制适配国际通用格式以兼容主流软件生态,但这直接导致两大核心矛盾:一方面,中文大模型高激活值场景下采用FP16/FP32时精度损失显著,模型稳定性难以保障;另一方面,硬件效率被迫减半,显存占用与功耗成本居高不下。2025年,随着UE8M0 FP8精度标准的落地,这一局面迎来根本性转变——该标准通过“无符号指数+零尾数”创新设计,舍弃符号位以扩大动态范围,在降低硬件实现难度的同时,填补了国产芯片在精度与效率上的短板,标志着国产AI从“跟着英伟达屁股后面跑”到“自己制定游戏规则”的战略转型。

UE8M0 FP8的技术突破集中体现在对国产芯片长期面临的硬件复杂度、软件生态与成本控制三大痛点的系统性解决:

  1. 硬件复杂度降低:通过简化电路设计,UE8M0 FP8摒弃了传统高精度格式的冗余计算单元。例如,其“无符号指数位+8位纯指数编码”设计减少了符号位处理逻辑,使芯片乘加单元面积缩减约30%,硬件实现难度显著降低。
  2. 软件生态统一:作为国产AI模型与芯片协同优化的产物,UE8M0 FP8首次实现了精度标准与硬件架构的深度协同。华为昇腾、沐曦、昆仑芯等厂商从“被动适配”转向“主动定义”,推动形成统一的低精度开发接口,解决了此前FP16/INT8量化导致的生态碎片化问题。
  3. 成本控制优化:UE8M0 FP8将显存占用直接减半,显著降低了存储硬件成本。以海光信息DCU产品为例,其深算三号芯片在适配UE8M0后,毛利率从适配前的45%提升至61.19%,印证了精度标准优化对成本结构的改善作用。
    技术特点总结:UE8M0 FP8通过“无符号指数位设计+零尾数优化”,在扩大动态范围的同时简化硬件实现,实现了精度损失小于1%与算力效率提升1.8倍的双重突破,填补了国产芯片在高精度低开销数据格式上的空白。

2025年成为国产芯片原生支持UE8M0 FP8的爆发期,多家头部厂商推出适配该标准的新一代产品。以下是已量产或计划支持的国产相关芯片:

公司芯片型号状态/发布时间关键特性支持情况
寒武纪思元590/690系列已支持/已流片支持FP8MLU370-S4、思元590及690系列芯片均支持FP8计算
华为昇腾910D/920系列计划支持预计2025年Q4支持原生FP8路线图显示2025年第四季度将加入支持行列
燧原科技燧原L6002025年7月发布国内首款原生支持FP8低精度计算的训推一体AI芯片,配备144GB存储容量和3.6TB/s存储带宽原生支持FP8
沐曦曦云C6002025年Q4量产基于XCORE1.5架构原生支持FP8 Tensor指令及Tensor转置功能,采用HBM3e显存原生支持FP8
摩尔线程MTT S5000已大规模量产MUSA架构支持UE8M0 FP8 Scale,利用硬件原生FP8,相比FP16计算算力提升2倍,带宽效率提升原生支持FP8
海光信息深算系列已支持支持FP8精度深算系列芯片支持FP8
壁仞科技BR100系列已发布支持FP16/INT8计算未明确提及FP8,但具备低精度计算基础
天数智芯相关产品适配中参与DeepSeek模型适配未明确提及FP8,但正在推进软硬件协同优化

国产AI芯片厂商正积极布局MXFP8等低精度格式的支持,这背后是软硬协同生态的构建:

  • 软件生态支持:DeepSeek(深度求索)等AI厂商在算法和软件层面优化了对FP8格式的支持(如开源DeepGEMM库),并积极与国产芯片适配。这为国产芯片提供了“换道超车”的机会 。
  • 突破带宽瓶颈:许多国产AI芯片在HBM等高带宽内存技术上存在差距。MX格式通过显著降低数据位宽,能有效缓解带宽压力,让算力得到更充分利用 。
  • 硬件加速迭代:上述芯片厂商的新一代产品大多将原生支持FP8作为重要特性,通过架构设计(如专用的Tensor Core、指令集扩展)来高效支持MXFP8计算 。 UE8M0硬件解码简单的特性,使其非常适合在设计自主可控的国产AI加速器中集成,有助于降低功耗、提升能效比。
  • 应对技术封锁:在美国对高端AI芯片实施出口管制的背景下,推动国产算力发展至关重要。支持MXFP8等先进格式,有助于缩小国产芯片与国际顶尖产品在实际应用中的性能差距。

如果你在选择支持MXFP8的国产AI芯片,可以考虑以下几点:

  1. 确认原生支持:关注芯片是否原生支持FP8计算(而并非仅通过软件模拟或转换),这直接影响计算效率 。
  2. 关注软件生态:了解芯片与主流AI框架(如DeepSeek、TensorFlow、PyTorch)的适配情况,以及其低精度计算库的成熟度 。
  3. 考察实际性能:关注芯片在特定负载(如大模型训练或推理)下的实际算力、显存带宽和能效表现 。
  4. 了解量产进度:部分芯片可能已发布但尚未大规模量产,需确认其供货情况和使用案例。

总结

支持MXFP8的国产AI芯片阵容正在不断扩大,包括寒武纪、燧原科技、华为、沐曦、摩尔线程、海光信息等厂商的产品 。这反映了国产AI算力在软硬协同发展上的进步,旨在提升大模型处理效率,并减少对国外高性能GPU的依赖。希望这些信息能帮助你更好地了解国产AI芯片对MXFP8的支持情况。

发表评论

泰日号Copyright Your WebSite.Some Rights Reserved. 网站地图 备案号:川ICP备66666666号 Z-BlogPHP强力驱动