首页 抖音快讯文章正文

为什么国产大模型与GPT5和Grok4性能差距明显?要怎么才能追赶?

抖音快讯 2025年09月09日 08:51 1 admin

根据博主的toyama nao的月度测试,国产大模型与国外顶尖大模型的性能不仅没有因为时间而缩短,反而因为在近期出现了扩大的趋势。

为什么国产大模型与GPT5和Grok4性能差距明显?要怎么才能追赶?

大模型测评员

8月份大模型测评分数:

为什么国产大模型与GPT5和Grok4性能差距明显?要怎么才能追赶?

从这个榜单可以看出,整个榜单只有中美欧,里面清一色都是中美的大模型,欧洲的大模型独苗magistral勉强上榜,而且还只是排名倒数第二。

9月大模型编程性能评分:

为什么国产大模型与GPT5和Grok4性能差距明显?要怎么才能追赶?

从目前来看,中美都有合格的大模型,美国有GPT5、grok4、claud4(think)、gemini 2.5PRO4个达到了合格线,中国有deep seekV3.1(think)、千问3、豆包达到了合格线,总体来说,美国比我们的稍微强那么一点点,但是我们的智谱清言4.5(think)、腾讯混元都是有望突破60分的种子选手,预备役还有阶跃星辰3、日日新大模型,可以说我们的大模型百花齐放,比美国还要热闹。

也即是说,大模型领域中美霸占天下,这值得我们每一个中国人庆贺的,我们在人工智能领域就是妥妥的第二。有值得高兴的地方,但是也有值得令人担忧的地方。大家仔细看这个榜单,美国有3款大模型突破了80分,分别是openAI训练的GPT5(high)、GPT5-mini(high)和马斯克训练的grok4大模型,最好分数,也就是极限分数分别是90分,85分,82分,而我们最顶尖的大模型,deep seek V3.1(think)极限分数是71。

70分与80分甚至90分相比,看起来只差了10分20分,实际差距非常遥远,为什么这么说呢?因为试卷的分布是有难度梯次的,一般试卷有简单题、中等难题、难题三个梯次,简单题占比60%左右,中等难题占比20%左右,难题占比20%左右。只会做简单题的,最多只能保证考到60分。如果吃透了书本的知识,那么就可以做中等难题,会做一部分中等难题,那就可以考60多分,达到及格线,如果大部分中等难题都会做,那么就可以考70多分,得到良好的评价。如果吃透了知识点的原理,并能够融会贯通的把知识串联起来,那就可以开始做难题,就可以考80多分,获得优秀,如果你的智商特别高,还可以挑战压轴题,就可以考90分以上,那就是卓越,成为班级或者年级里面的尖子生代表。

从分数上看,我们的3个过了及格线的大模型,只有一个勉强是良好,达到优秀的一个都没有。如果你曾经是一个考70多分的学生,就会感觉80分就像是一个天堑,不论怎么考也跨不过去。我们的大模型也面临这个问题,短期来看突破80分是没有希望了。为什么会这样呢?这里面其实是有原因的,大家听我详细道来。

要理解这个东西,就得了解大模型的设计原理。大模型的底层元素是词向量,譬如我们说的“大模型”可能就是一个词向量,“大”“模”“型”这三个字也可能分别是一个词向量,每个词向量大概有几十到几百个,未来甚至有可能出现上千个维度的词向量,这个维度是我也说不清楚,大家就是理解维度是指这个词的特征——那种情景下会出现:譬如苹果,它可以是红苹果,脆苹果,也可以是红富士,还可以是牛顿砸头上想出万有引力的抽象苹果,还可以是咬了一口乔布斯“苹果”。

大模型要想精确表示训练的语义,维度就得长,精度就得高,因为只有这样,才能充分的把词向量的细微维度表示出来,譬如开心和高兴是近视词,但是实际使用上差别非常大,高兴通常是口语词,用在对话场景里面是真高兴,在书面语上也是表示真高兴,但是用的比较少。开心通常是书面词,口语里面用的很少,很多地方口语里面几乎从不使用开心,它用在书面语里面,语义其实是不确定的,在有的场景下,用开心表示的是中等快乐的情绪,但是有时候用开心,它表示的是情绪伪装,口里开心,心里不开心,但是不能表示出来不开心。

如果说大模型的维度短,精度低,就没法从训练文献中精确的捕捉开心和高兴的具体的应用场景的细微差别,只是把它们当成近视词了,那么就会出现混用高兴和开心的情况。大模型的词向量越多,那么对词向量的维度要求就是必须变得更长,精度变得更高,如果维度不变,或精度不变,那么大模型的性能就会因为词向量的增加而显著的下降。

从另外一个方面也就是说,参数量越大的模型,参数精度要求越高,模型训练需要的算力精度要求越高。百亿级参数的大模型和千亿级的MOE大模型还可以用FP16训练,万亿级参数的大模型最少都得使用TF32精度和TF32算力,10万亿级别的参数大模型,只能使用FP32精度和FP32算力。

FP16就是16位的浮点数,最多只能表示2的16次方,也就是只能表示65536个权重,因此理论上最多只能表示出32768个词向量的准确关系,再多就可能会导致部分词向量之间权值关系近视,从而出现不恰当的同权重词向量相互替代的关系。

国产大模型普遍采用FP16和BF16精度训练,因此模型维度普遍短于国外的顶级大模型,模型参数精度也普遍短于国外的顶级大模型GPT5(high)和Grok4,因此国产大模型的性能也是显著的低于这两个顶级大模型。正是由于国产大模型普遍采用FP16和BF16精度,从训练上就导致了大量语义丢失,根据上面的理论,国产大模型回答的准确性就必然显著的低于国外顶级大模型。本身训练端就导致了大量语义截断。

在推理端,中国的互联网免费大模型为了降低服务成本,大量使用FP8算力,语义进一步被截断,回答的答案质量不仅不高,而且稳定性极为不好,同一个问题问同一个大模型,好的答案和差的答案差距非常远。这个可以看上面的中位差距百分比数据,国产最好的千问3(think)是11.66%,也就是最好的答案和最差的答案差了23%,这还是只是极限分数刚过及格线的情况下的性能波动,也是说它的答案,好的时候还不错,差的时候没法看,必须人工大量校正。

GPT5(high)采用高精度算力,稳定性非常好,性能波动只有7%,也就是说最好的答案和最差的答案差不多,它回答的答案,最好的时候接近卓越,最差的时候也是优秀。

为什么国产大模型里面deep seek表现最好呢?这就要说到我们前面说的原理:参数量越大的模型,参数精度要求越高,模型训练需要的算力精度要求越高。deep seek是7000亿参数的大模型,看起来参数量非常大,但是deep seek的架构是MOE架构,它不是一个大型的万能专家,而是由256个专家组成的,平均专家的参数量只有几十亿个。这下大家就应该明白了,它通过这种在每层神经网络类似分块的方式,事实缩小了每个具体专家模型的参数量。

大模型参数量小,意味着每个具体的“专家大模型”对应的词向量实际是上比较少的,词向量的数量少,那么词向量的维度要求就少,精度要求就低。

我再用一个具体的例子来说明,假如大模型在训练中,量化的词向量有20万个,但是MOE专家模型呢,在训练的时候,它只是把其中的一部分,假如说从这20万个词向量里面筛选2万个词向量进行权重关系训练,2万个词向量,用FP16的65536数表示权值精度,自然精度表现就足够了。这20万个词向量,通过不同的选词方式进行训练,就得到了不同的专家模型。

在算力不够的情况下,使用MOE架构训练大模型确实是一个非常取巧的做法,是快速赶超的良方。但是这种MOE架构有天然的缺陷,就是不论使用多少个专家模型,都无法事实上表示20万个词向量之间的精确的关系——专家模型在选词向量的时候,总是会出现词向量之间的关系遗漏,当我们对大模型的性能要求更高的时候,这种情况就会非常明显。

当然,较好的专家模型设计,可以尽可能的减少词向量之间的关系遗漏,使得MOE大模型的性能确实可以逐渐逼近GPT5(high),但是超越类GPT5架构是不可能的,因为MOE架构的大模型,词向量之间的关系遗漏不可避免。采用类似的数据进行训练,如果说GPT最顶级的大模型是100分,使用MOE模型的架构大模型,不论如何训练,很难超过90分,甚至很难超过80分,这就是MOE架构的大模型的天然缺陷导致的。

正是由于算力短缺,我们不能像美国那样任性的调用算力去训练我们的大模型——FP32和TF32高精度算力不足,导致国外训练一个高精度的大模型只需要1个月到3个月,而我们训练一个高精度大模型需要半年甚至1年半,我们的大模型训练出来就落美国半年到1年半,时间越久,落后的程度越大。因此,我们当下要紧追美国的大模型,只能暂时用MOE的架构,采用相对低精度的FP16算力去训练大模型,这就是现在的客观现实。

我们要想进一步的取得决定性的大模型竞赛,我们只能等国产EUV突破,因为只有EUV才能生产4纳米,3纳米芯片。芯片制程越低,晶体管密度越高,晶体管的密度越大,高精度算力就越大,训练大模型就越快。而中芯国际的N+2工艺晶体管密度太低了,不管如何设计芯片,FP32和TF32的高精度算力肯定高不了。

那有人会说,那可以并联更多的GPU啊,譬如华为的超节点384。事实上是不行的,原因很简单,并联的GPU越多,GPU之间的通信开销就越大,通信大概率就是一个瓶颈。超节点并联的GPU越多,通信需求越大,出现数据延迟和误码的几率就越大。大模型在训练时候,如果出现了数据延迟或者在传输的过程中出现了误码,极有可能导致大模型训练失败。大模型中途训练失败,前面的训练前功尽弃,投入的钱和算力就打水漂了。要想降低大模型训练失败的几率,就得尽可能的提升单块GPU的算力和内存,尽力减少需要并联的GPU数量,尽量减少GPU之间的通信需求。

据说英伟达专门为中国市场设计了一款新的芯片B30A,据说性能是B300的一半,就是带宽小一些,但是支持NVLink卡间互联,通过多卡可以弥补算力不足。如果真是这样,我认为我们就还是要支持企业多买,因为在EUV没有攻克之前,先通过购买英伟达的卡,把大模型训练出来,使得紧跟美国的大好局面继续维持下去。

至于国产的AI算卡,一方面通过补贴或者政策鼓励国内大模型厂商采购,另外一方面成立专门的国家算力集团,由该集团向国产AI算卡公司采用大量AI芯片,一方面给AI算卡公司输血,同时通过订单数量激励国内的AI算卡公司加大研发力度,突破卡脖子,另外一方面给中芯国际提供订单,维持中芯国际高端制程芯片的运转,提高中芯国际的效益和研发动力。

发表评论

泰日号Copyright Your WebSite.Some Rights Reserved. 网站地图 备案号:川ICP备66666666号 Z-BlogPHP强力驱动