亲,这款游戏可以开挂的,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到-人的牌一样。所以很多小伙伴就怀疑这...
2025-08-26 0
DeepSeek 这次的重点不在模型 V3.1,而是在DeepSeek在其官宣发布DeepSeek-V3.1的文章中提到,DeepSeek-V3.1使用了UE8MO FP8 Scale的参数精度。另外,V3.1对分词器及chat template进行了较大调整,与DeepSeek-V3存在明显差异。DeepSeek官微在置顶留言里表示UE8MO FP8是针对即将发布的下一代国产芯片设计。一则官方留言让整个AI圈都轰动了:
新的架构、下一代国产芯片,总共短短不到20个字,却蕴含了巨大信息量。 国产芯片企业股价也跟风上涨,比如寒武纪今日早盘盘中大涨近14%,总市值跃居科创板头名。这里面有几个疑问:这个UE8M0 FP8到底是什么?下一代国产芯片,又是指什么?
“UE8M0 FP8”这个概念,可以拆分成前后两个部分来解释,前面的UE8M0,是MXFP8路径里的“缩放因子”。
MXFP8是Open Compute Project在2023年发布的《Microscaling (MX) Formats Specification v1.0》里定义的8 bit微缩块格式。Open Compute Project是2011年由Facebook(现Meta)联合英特尔、Rackspace等发起的开源硬件协作计划,目的是通过共享数据中心及服务器设计推动行业效率提升。其成员阵容相当强大,国外还有微软、谷歌、亚马逊、AMD、英伟达等,而国内的阿里、腾讯、百度等也参与其中。它通过:
对于AI计算,尤其是大模型训练和推理,MXFP8能带来:
国际主流FP8标准如NVIDIA Hopper架构支持的E4M3(4位指数+3位尾数)和E5M2(5位指数+2位尾数),均采用“指数位+尾数位”的混合编码模式,其中E4M3通过增加尾数位提升精度,E5M2则通过增加指数位扩展动态范围,但两者均需在有限的8位空间内平衡精度与范围。而UE8M0 FP8则突破这一框架,采用“8位指数位(E8)+0位尾数位(M0)”的纯指数编码设计,通过舍弃尾数换取极致动态范围,形成独特的“范围优先”设计哲学。
格式 | 指数位 | 尾数位 | 符号位 | 核心设计目标 | 动态范围典型值 |
E4M3 | 4 | 3 | 1 | 精度优先(适合推理) | 1e-15 至 1e15 |
E5M2 | 5 | 2 | 1 | 平衡精度与范围(通用场景) | 1e-15 至 1e15 |
UE8M0 | 8 | 0 | 0 | 动态范围优先(大模型训练) | 1e-38 至 1e38 |
UE8M0的“U”(Unsigned)设计针对深度学习激活值非负的特性,舍弃符号位以释放更多位资源用于指数编码,同时简化硬件电路中的符号处理逻辑。其“E8M0”结构通过8位指数位实现动态范围达2^255,结合隐式归一化技术(如IEEE 754隐藏位机制),使数值表示范围覆盖1e-38至1e38,远超传统FP8的1e-15至1e15。这里的0位尾数设计并非放弃数值表示能力,而是通过IEEE 754标准中的隐藏位机制,默认尾数部分为1,仅通过指数位调节数值大小,使格式仅表示2的整数次幂倍数,专注于实现极端动态范围。
UE8M0将FP8动态范围提升两个数量级,使其能覆盖大模型训练中梯度从1e-38的微小波动到1e38的极端峰值,从根源上抑制梯度爆炸问题。在700亿参数模型测试中,该格式可使梯度更新过程中的数值溢出率降低99.7%,为国产芯片部署超大规模模型提供关键数值稳定性保障。
在实际应用中,UE8M0的纯指数编码设计展现出对大模型训练的高效适配性。针对671B参数规模的中文大模型,采用UE8M0格式的国产芯片可减少50%的GPU用量,同时模型输出速度提升3.15倍,这得益于其精简的硬件电路设计(无符号位和尾数处理单元)与超大动态范围带来的数值稳定性提升。相比之下,传统E4M3格式因动态范围不足,在相同模型训练中需额外引入梯度裁剪机制,导致15%-20%的计算开销增加。
综上,UE8M0通过“位分配革命”实现了从“精度-范围平衡”到“范围优先”的范式转换,其无符号指数+零尾数的极简设计,配合IEEE 754隐藏位机制,既满足了大模型训练对动态范围的极端需求,又通过硬件简化提升了计算效率,为国产芯片在AI算力竞争中提供了差异化技术路径。
国际主流FP8技术路线
国际主流FP8技术路线以IEEE相关标准为基础,形成了以e4m3和e5m2为核心的格式体系,并通过动态缩放策略与硬件优化实现高效AI计算。其中,NVIDIA作为技术推动者,在传统格式基础上发展出微缩块格式(MXFP8),成为当前行业实践的标杆。
主流FP8格式通过指数位与尾数位的差异化分配平衡精度与数值范围: - e4m3:采用4位指数位+3位尾数位设计,主要用于权重和激活值存储,其格式偏离IEEE 754 conventions以扩展动态范围,典型动态范围约为1e-15到1e15,需依赖per-tensor缩放因子避免溢出。 -e5m2:采用5位指数位+2位尾数位设计,遵循IEEE 754 conventions,侧重数值范围覆盖,主要用于梯度计算,同样依赖动态缩放策略。
这种架构在Graphcore IPU等硬件中得到支持,其中e4m3因尾数位更多而精度略高于e5m2,形成“精度-范围”互补的应用模式。
在Blackwell架构中,NVIDIA推出MXFP8(微缩浮点格式),通过块级缩放(per-block scaling)优化传统FP8的动态范围限制。其核心特点包括: -硬件深度整合:内置Tensor Core指令集优化,支持MXFP8-E4M3格式在高质量数据集预训练中达到接近BF16的效果,8亿参数模型验证结果显示性能损失可控。 -动态缩放策略:通过per-tensor与per-block混合缩放解决溢出问题,例如在Transformer引擎中对激活值采用块级粒度调整,平衡精度与计算效率。
技术对比核心:MXFP8的块级缩放需对张量进行分块处理,通过局部统计特征动态调整缩放因子,适用于均匀分布的数据场景;而UE8M0 FP8采用全局缩放设计,通过8位指数位实现1e-38到1e38的超宽动态范围,无需依赖per-tensor缩放,在中文大模型高激活值场景下精度损失降低27%。
arXiv论文《Recipes for Pre-training LLMs with MXFP8》的对比实验显示,MXFP8在LLM预训练中通过数值转换策略(如动态偏移与舍入优化),可将8位浮点的表示误差控制在BF16的1.2倍以内。在NVIDIA H100/H200芯片中,MXFP8配合第四代张量核心,实现LLM训练速度提升9倍、推理速度提升30倍,峰值FP8性能达3026 TFLOPS。
然而,主流技术路线仍存在局限性:其动态范围(1e-15到1e15)在中文大模型高激活值场景(如长文本语义编码)中易触发溢出,需通过复杂的缩放逻辑补偿,而UE8M0的全局缩放设计为此类场景提供了更简洁高效的精度保障方案。
国产芯片精度标准演进
2023至2025年,国产芯片精度标准经历了从“被动兼容国际规则”到“主动定义技术标准”的关键转型。这一演进不仅打破了长期以来对国际通用格式(如FP16/FP32)的路径依赖,更通过UE8M0 FP8精度标准的推出,构建了适配国产AI芯片架构的自主技术体系,为硬件性能释放、软件生态协同与成本控制提供了系统性解决方案。
早期国产芯片在精度标准上长期处于“被动跟随”状态,需强制适配国际通用格式以兼容主流软件生态,但这直接导致两大核心矛盾:一方面,中文大模型高激活值场景下采用FP16/FP32时精度损失显著,模型稳定性难以保障;另一方面,硬件效率被迫减半,显存占用与功耗成本居高不下。2025年,随着UE8M0 FP8精度标准的落地,这一局面迎来根本性转变——该标准通过“无符号指数+零尾数”创新设计,舍弃符号位以扩大动态范围,在降低硬件实现难度的同时,填补了国产芯片在精度与效率上的短板,标志着国产AI从“跟着英伟达屁股后面跑”到“自己制定游戏规则”的战略转型。
UE8M0 FP8的技术突破集中体现在对国产芯片长期面临的硬件复杂度、软件生态与成本控制三大痛点的系统性解决:
2025年成为国产芯片原生支持UE8M0 FP8的爆发期,多家头部厂商推出适配该标准的新一代产品。以下是已量产或计划支持的国产相关芯片:
公司 | 芯片型号 | 状态/发布时间 | 关键特性 | 支持情况 |
寒武纪 | 思元590/690系列 | 已支持/已流片 | 支持FP8 | MLU370-S4、思元590及690系列芯片均支持FP8计算 |
华为 | 昇腾910D/920系列 | 计划支持 | 预计2025年Q4支持原生FP8 | 路线图显示2025年第四季度将加入支持行列 |
燧原科技 | 燧原L600 | 2025年7月发布 | 国内首款原生支持FP8低精度计算的训推一体AI芯片,配备144GB存储容量和3.6TB/s存储带宽 | 原生支持FP8 |
沐曦 | 曦云C600 | 2025年Q4量产 | 基于XCORE1.5架构原生支持FP8 Tensor指令及Tensor转置功能,采用HBM3e显存 | 原生支持FP8 |
摩尔线程 | MTT S5000 | 已大规模量产 | MUSA架构支持UE8M0 FP8 Scale,利用硬件原生FP8,相比FP16计算算力提升2倍,带宽效率提升 | 原生支持FP8 |
海光信息 | 深算系列 | 已支持 | 支持FP8精度 | 深算系列芯片支持FP8 |
壁仞科技 | BR100系列 | 已发布 | 支持FP16/INT8计算 | 未明确提及FP8,但具备低精度计算基础 |
天数智芯 | 相关产品 | 适配中 | 参与DeepSeek模型适配 | 未明确提及FP8,但正在推进软硬件协同优化 |
国产AI芯片厂商正积极布局MXFP8等低精度格式的支持,这背后是软硬协同生态的构建:
如果你在选择支持MXFP8的国产AI芯片,可以考虑以下几点:
支持MXFP8的国产AI芯片阵容正在不断扩大,包括寒武纪、燧原科技、华为、沐曦、摩尔线程、海光信息等厂商的产品 。这反映了国产AI算力在软硬协同发展上的进步,旨在提升大模型处理效率,并减少对国外高性能GPU的依赖。希望这些信息能帮助你更好地了解国产AI芯片对MXFP8的支持情况。
相关文章
亲,这款游戏可以开挂的,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到-人的牌一样。所以很多小伙伴就怀疑这...
2025-08-26 0
本篇文章给大家谈谈边锋干瞪眼小程序作弊,以及小程序边锋干瞪眼有没有挂对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 微信四人聊天可以怎么玩游戏...
2025-08-26 0
8月25日,北京园博大酒店一层热闹非凡,热气腾腾的菜品让人目不暇接,科技与烟火气正撞出奇妙火花。智慧厨房展区中央,炒菜机器人成为全场焦点,这样的智能烹...
2025-08-26 0
您好:这款游戏是可以开挂的,软件加微信【添加图中微信】确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到其他人...
2025-08-26 0
证券之星消息,根据天眼查APP数据显示天合光能(688599)新获得一项实用新型专利授权,专利名为“一种钙钛矿太阳能电池”,专利申请号为CN20242...
2025-08-26 0
证券之星消息,根据天眼查APP数据显示铁建重工(688425)新获得一项实用新型专利授权,专利名为“一种用于薄煤层锚杆转载机组的高层走台装置”,专利申...
2025-08-26 0
发表评论