AI大模型“滴血认亲”事件

抖音推荐 2025年07月07日 03:45 1 admin

6月30日开源盘古Pro MOE 720亿参数的混合专家模型开源及基于升腾芯片的模型推理技术。然而，48小时前，独立账号honest AGI在GitHub发帖指控盘古大模型最新版Pro moe采集的核心参数特征与阿里通义千问2.5的核心参数特征相关度高达0.927，甚至盘古大模型相关程度比千问其他版本与千问2.5之间的相关度还高，同时指出Meta的LLAMA 3.1版本与千问2.5之间相关度不到20%。

如果这个这位 honest AGI 它的计算以及它的这个参数特征提取没有错的话。那么就这样的一个结果，只能得到一个大胆的假设，注意是假设哈，就是盘古 Pro moe 这个混合专家模型并非完全是从零训练开始的。那么只有可能是在阿里千问模型的基础上，通过 upcycling的方式升级训练以及模型架构调整得到的。upcycling目前 AI 大模型领域常见的这种模型优化以及调整的这个方式。

对于新的研发来说，也可以站在现有的这个大模型基础上，在肩膀上进行研发。那么这种研发的方式，其中一个重要的方向就是 upcycling，就是通过重用现有的这个模型的结构，进行相应的结构优化，或者是参数调整，或者是这个重新的训练等等，那么提升整个模型最终的效果。

大模型，尤其是上百亿参数的大模型实际上内部是非常稀疏的，就好像是一个巨大的网一样，那网的大部分节点其实都是没有用的，没有特定的信息在里头，只是少部分节点是有非常丰富的信息。少部分节点的计算决定了最终这个大模型的输出的结果。那么上百亿参数大模型很大程度上是所谓的这种稀疏的。

同样的，现在还有很多，大家通常俗称为小模型，其实它还是大模型，只是规模相对小一些，比如说，2亿、4亿、8亿，包括十几亿参数的都是就很紧凑，模型规模比较小的。我们通常的叫做 dense 的大模型，或者是稠密的大模型。那么这种稠密的大模型呢，往往内部的这些神经元，它都承担着这个复杂的计算任务。它不会是稀疏的，它是相对来说是比较紧密的。

那么其中的一个 upcycling 的方式，就是原来的这个稠密的这个大模型，可以把它稀疏化。本来是4亿的参数，8亿的参数，通过稀疏化扩展成为40亿的参数，80亿的参数。那么这时候以前密集的打散了，变成更加稀疏的方式。那么在变成稀疏方式的过程中间呢，通过架构调整，使得模型的不同部分承担不同的功能。比如说这部分专门处理音频，那部分专门进行图像识别，另外一部分可能是专门做相关的这个计算，那么这个，就是我们所谓的这个混合专家模型，每一块大模型，稀疏网状大模型里头的某一部分，专门承担某一个功能。

在 dense 这种稠密大模型里头，你是没有办法分的，因为参数有限，那么所有的功能全部混在一起。如果通过这种 upcycling 的方式来进行分散，那就可以做到这种不同 parts 不同的部分去完成不同的专家，这个混合专专家的功能，配合到一起来工作。所以，这个就是所谓的这个 sparse upcycling 的这样的一个工作模式。

注意，从一个稠密的大模型，一个 dense 的大模型，通过这种 sparse upcycling 的方式扩展成为更大模型的这个参数的过程中间，尽管参数快速扩大，但是这个参数特征之间的这个关系有可能并不会被稀释，就这个特征仍然会保留下来。所以呢，这种 upcycling ，并不会彻底改变模型本身的这种核心关键的参数特征。

那么为什么要去做这样的这种从这个 dense 变成这种 sparse 的这种结构呢？是因为当不同的功能分块之后，这种混合专家呢他在进行计算的时候，并不需要整个大模型的全部动员起来进行计算，那实际上的我的这个资源消耗会减少，计算过程会加加快。那么推理的时候也是只需要去利用这块来进行推理，就可以完成相应的这个功能。

所以不管是这个训练速度还是推理速度，在进行这个稀疏化之后，这种混合专家模型速度都会更快，同样的能耗也会更低，这个就是这个 upcycling 的这个好处。

科普内容

upcycling技术

含义：目前AI大模型领域常见的模型优化及调整方式，通过重用现有模型结构，进行结构优化、参数调整或重新训练等提升模型最终效果。
常见方向 - sparse upcycling原理：将稠密大模型稀疏化，扩展参数规模，通过架构调整使模型不同部分承担不同功能，形成混合专家模型。例如从4亿、8亿参数的稠密模型扩展为40亿、80亿参数的稀疏模型。优势：计算时无需动员整个大模型，减少资源消耗，加快计算速度，训练和推理速度更快，能耗更低。
关键特性：从稠密到稀疏模型扩展过程中，参数特征关系可能不会被稀释，核心关键参数特征不会彻底改变。该技术最早由Google在2022年测试并取得不错结果，之后应用增多。

模型指纹技术（fingerprint）

定义：模型研发者在训练过程中针对特定prompt进行设计，使相关知识散布在多个参数区域，且prompt输入与回答有强对应关系，这组prompt与answer成为模型的fingerprint。
作用：判断模型之间的继承关系及潜在抄袭现象。即使模型被upcycling优化，特定prompt输入产生的输出仍不变，通过此可识别模型是否抄袭或基于原有开源模型优化。
与watermark区别：watermark是在模型结果生成后输出环节添加的标识，类似猪肉出厂的检验检疫章；fingerprint则是内嵌在模型内部，如同猪吃饲料时饲料带有的特定元素融入猪肉中，只要模型涉及相应prompt，就会有对应结果，通过输入输出测试即可判断。

核心参数特征比对方法

数据来源：在大语言模型基本为Transformer架构下，利用self attention机制中的核心中间变量q、k、v通过线性变换得到的权重矩阵（如WQ、WK、WV），这些是大模型核心参数一部分。
处理方式：基于分层的QKV矩阵取标准差，然后归一化，形成模型参数的特征排列，按分层将神经网络各层特征标准化排列。不同来源大模型参数基本特征应不同，因模型起始训练时随机参数不同会导致最终结果有差异。全面采集两个大模型参数特征并组织，判断参数特征相似关系，可判断模型间是否有继承关系。此数据分析和提取以公开方式进行，模型开源后参数公开可验证。

honest AGI指控相关情况

比对结果：honest AGI通过核心参数特征值比较判断盘古与千问模型相关度，其账号已关闭。从网页快照结果看，其统计图表显示LLama3.1与其他模型相关度低，而盘古与千问2.5多个参数模型相关度高，如盘古与千问2.5 320亿参数模型相关度93.5%，与720亿参数模型相关度82.9%等。此外，honest AGI还给出有关projection BIAS的结果，显示盘古与千问相关参数和权重接近。
现状：honest AGI删帖跑路，目前数据缺乏实锤，抄袭与否未知。但如果真抄袭，阿里千问开发方可用fingerprint技术验证，不过是否公布结果未知。同时，此事件凸显模型研发要注意知识产权问题，且第三方可通过公开的参数特征比对方式对模型相似度提出疑问，未来可能会发现更多模型间的隐秘关系。