首页 抖音推荐文章正文

国产AI芯片 突围了?

抖音推荐 2025年08月28日 08:38 1 admin
国产AI芯片 突围了?

制图:李芷琪(豆包AI)

8月26日晚,近期股价高歌猛进的“国产AI芯片第一股”寒武纪发布半年报。2025年上半年,寒武纪营收28.81亿元,同比增加4347.82%,归属于母公司股东的净利润10.38亿元,扣非后归母净利润9.13亿元,均同比扭亏为盈。

股市8月27日开盘后,寒武纪股价一度涨超7%。截至午盘收盘,寒武纪大涨6.01%,报1408.9元/股,与“A股之王”茅台的股价差距仅剩50多元,市值接近6000亿元。半年报业绩发布后,用来反映市场对公司成长性预期高低的指标——市盈率(TTM)(当前股价/最近12个月的每股净利润),从此前惊人的4000多倍回调到相对合理的500多倍,不过依然远超英伟达、AMD等海外芯片巨头。

扭亏为盈

寒武纪连续三个季度实现盈利

上半年云端产品线营收占比最高

结合2025年第一季度财报进行推算,寒武纪在2025年第二季度的营收为17.69亿元,环比增加59.19%;归母净利润6.83亿元,环比增长92.03%,扣非后归母净利润6.37亿元,环比增长130.68%。

这是自2024年第四季度单季度净利润扭亏为盈后,寒武纪连续三个季度实现盈利。扣非后归母净利润则是连续两个季度保持正值。

寒武纪表示,收入增长背后,公司在上半年持续拓展市场,积极助力人工智能应用落地,依托在人工智能芯片产品、基础系统软件平台取得的进步,产品持续在运营商、金融、互联网等多个重点行业规模化部署并通过了客户严苛环境的验证。

今年上半年,云端产品线营收28.70亿元,占比高达99.62%,在营收结构中占比最高。

公开信息显示,寒武纪的AI芯片已迭代至思元590,其在大模型训练任务中的表现接近英伟达A100的80%。

近期,寒武纪近40亿元的定向增发方案获上交所审核通过,正在等待中国证监会做出统一注册的决定。该资金将主要用于面向大模型的芯片平台项目和软件平台项目。寒武纪董事长、总经理陈天石在5月12日业绩会上介绍,芯片平台项目包括覆盖不同类型大模型任务场景的系列化芯片产品、先进封装技术平台等;软件平台项目则用于提升公司智能芯片的易用性和适应性等。

行情催化

传闻称规划产能50万颗

10亿元订单消息被辟谣

外部环境对寒武纪未来营收的影响存在两面性。

一方面,国产芯片替代在持续推进,部分省市均在过往提出了智算中心算力国产化率指标,如上海市早在2024年3月便要求,2025年新建智算中心国产算力芯片使用占比超过50%;另一方面,寒武纪仍面临来自英伟达等巨头和国内AI芯片厂商的竞争。英伟达的中国“特供”芯片H20近期陷入安装定位“后门”的网络安全质疑,引发国家网信办约谈。另据媒体报道,英伟达正在开发基于最新Blackwell架构的新款中国“特供”版AI芯片,功能比H20更强大。

8月中旬以来,寒武纪的股价如火箭般蹿升,成为茅台之后的A股市场第二只千元股。一起业务传闻和DeepSeek留言区的一句话,催化了这轮火热行情。

这起市场传闻称,寒武纪向台湾载板大厂景硕电子预订了大量订单,暗示其订单量激增,并且2026年规划产能50万颗。在股价涨停的8月12日,寒武纪就传闻回应说,网上传播的关于公司在某厂商预订大量载板订单、收入预测、新产品情况、送样及潜在客户、供应链等相关信息,均为误导市场的不实信息。

此前3月10日,市场上也曾流出另一条关于寒武纪订单的“小作文”:字节跳动向寒武纪下单4万颗芯片,单价2.5万元,总价值10亿元。字节跳动彼时予以辟谣。

情绪点燃

DeepSeek新模型利好市场

留言称针对下一代国产芯片设计

另一起催化因素发生在8月21日,即寒武纪收盘价首度突破1000元的次日。DeepSeek当日正式发布模型新版本DeepSeek-V3.1,这款模型使用了UE8M0 FP8 Scale的参数精度。DeepSeek在公众号留言区补充的一句话引起更大的市场关注:UE8M0 FP8是针对即将发布的下一代国产芯片设计。

尽管DeepSeek并未点名哪一款国产芯片,但市场对寒武纪、海光信息、云天励飞等芯片股的情绪被点燃,这三家公司在8月22日均涨停,国产算力供应链上的其他公司也被“带飞”。

FP8(8位浮点数)是芯片支持的一种低精度格式。和FP32、FP16格式相比,FP8牺牲了精度,但胜在可以节省存储和带宽,加快计算速度,这对拥有上千亿参数的大模型训练来说至为关键。FP8精度格式的“出圈”,得益于DeepSeek在训练V3模型时,引入了FP8的混合精度训练框架,并首次在超大规模模型上验证了其有效性。

根据开放计算项目2023年9月提出的Microscaling(MX)微缩放格式,MX FP8精度分为E4M3、E5M2两种编码方式。按命名规范,在提及任何符合MX规范的数据精度类型时,会在名称前添加“MX”。

浮点数由符号位、指数、尾数三个部分组成,而E4M3、E5M2各自代表着“4位指数+3位尾数+1位符号位”和“5位指数+2位尾数+1位符号位”,前者精度较高但数值表示范围小,后者精度较低但数值范围大。但英伟达公司的研究论文显示,E4M3是MX FP8两种数据类型中最能保持预训练精度的变体。

无论是FP8(E4M3)还是FP8(E5M2),相较而言精度低、数值范围有限。为避免过大或过小数值的溢出以及精度损失,模型训练时就需要通过数值乘以“缩放因子”(Scale),来把数值压缩在FP8格式的可表示范围内。UE8M0便是“缩放因子”,其只有指数,没有符号和尾数,适合表示倍数关系,用来进行数值压缩。

业界讨论

能让国产芯片适配更顺利

多家厂商称旗下芯片支持FP8精度

股市热潮背后,UE8M0 FP8亦引发广泛讨论。

AI芯片初创公司行云集成电路联合创始人、CTO余洪敏告诉南都记者,DeepSeek从算法层面另辟蹊径,选择MX FP8进行训练,使用无符号、8位指数的UE8M0作为“缩放因子”,进行“量化内核”设计,增大了FP8精度覆盖的数值动态范围。

余洪敏介绍,UE8M0本质上是对关键参数保留更高有效位,对非敏感参数进行激进压缩。当“缩放因子”动态补偿量化的误差,维持训练过程中模型收敛的稳定性,等于是忽略了“缩放因子”的影响,在运算过程中也就没有了“缩放因子”的频繁加载。如此一来,可通过固定的GPU指令进行解析,减小硬件指令不兼容的影响。这一定程度上会减轻国产芯片硬件支撑FP8精度时的难度,能让国产芯片的适配更顺利,提升模型和芯片的兼容性。

余洪敏预测,DeepSeek带头使用UE8M0 FP8后,后续几乎所有的AI芯片厂商都会去原生支持这种精度。

中信证券研报认为,一方面,国产模型为适应国产算力,在调整资源端的消耗;另一方面国产算力也不断支持国产模型的发展,“国产算力和国产模型在相向而行”。

据记者了解,目前包括沐曦、燧原科技、摩尔线程等芯片厂商均已宣称旗下芯片支持FP8精度。余洪敏介绍,国产芯片原生支持FP8的较少,有的实际上仍然是用FP16格式,再通过软件模拟或转换成FP8,这会影响到芯片的计算效率。

采写:南都记者 杨柳

发表评论

泰日号Copyright Your WebSite.Some Rights Reserved. 网站地图 备案号:川ICP备66666666号 Z-BlogPHP强力驱动