首页 抖音推荐文章正文

AI大模型“滴血认亲”事件

抖音推荐 2025年07月07日 03:45 1 admin
AI大模型“滴血认亲”事件


6月30日开源盘古Pro MOE 720亿参数的混合专家模型开源及基于升腾芯片的模型推理技术。然而,48小时前,独立账号honest AGI在GitHub发帖指控盘古大模型最新版Pro moe采集的核心参数特征与阿里通义千问2.5的核心参数特征相关度高达0.927,甚至盘古大模型相关程度比千问其他版本与千问2.5之间的相关度还高,同时指出Meta的LLAMA 3.1版本与千问2.5之间相关度不到20%。

如果这个这位 honest AGI 它的计算以及它的这个参数特征提取没有错的话。那么就这样的一个结果,只能得到一个大胆的假设,注意是假设哈,就是盘古 Pro moe 这个混合专家模型并非完全是从零训练开始的。那么只有可能是在阿里千问模型的基础上,通过 upcycling的方式升级训练以及模型架构调整得到的。upcycling目前 AI 大模型领域常见的这种模型优化以及调整的这个方式。

对于新的研发来说,也可以站在现有的这个大模型基础上,在肩膀上进行研发。那么这种研发的方式,其中一个重要的方向就是 upcycling, 就是通过重用现有的这个模型的结构,进行相应的结构优化,或者是参数调整,或者是这个重新的训练等等,那么提升整个模型最终的效果。

大模型,尤其是上百亿参数的大模型实际上内部是非常稀疏的,就好像是一个巨大的网一样,那网的大部分节点其实都是没有用的,没有特定的信息在里头,只是少部分节点是有非常丰富的信息。少部分节点的计算决定了最终这个大模型的输出的结果。那么上百亿参数大模型很大程度上是所谓的这种稀疏的。

同样的,现在还有很多,大家通常俗称为小模型,其实它还是大模型,只是规模相对小一些,比如说,2亿、4亿、8亿,包括十几亿参数的都是就很紧凑,模型规模比较小的。我们通常的叫做 dense 的大模型,或者是稠密的大模型。那么这种稠密的大模型呢,往往内部的这些神经元,它都承担着这个复杂的计算任务。它不会是稀疏的,它是相对来说是比较紧密的。

那么其中的一个 upcycling 的方式,就是原来的这个稠密的这个大模型,可以把它稀疏化。本来是4亿的参数,8亿的参数,通过稀疏化扩展成为40亿的参数,80亿的参数。那么这时候以前密集的打散了,变成更加稀疏的方式。那么在变成稀疏方式的过程中间呢,通过架构调整,使得模型的不同部分承担不同的功能。比如说这部分专门处理音频,那部分专门进行图像识别,另外一部分可能是专门做相关的这个计算,那么这个,就是我们所谓的这个混合专家模型,每一块大模型,稀疏网状大模型里头的某一部分,专门承担某一个功能。

在 dense 这种稠密大模型里头,你是没有办法分的,因为参数有限,那么所有的功能全部混在一起。如果通过这种 upcycling 的方式来进行分散,那就可以做到这种不同 parts 不同的部分去完成不同的专家,这个混合专专家的功能,配合到一起来工作。所以,这个就是所谓的这个 sparse upcycling 的这样的一个工作模式。

注意,从一个稠密的大模型,一个 dense 的大模型,通过这种 sparse upcycling 的方式扩展成为更大模型的这个参数的过程中间,尽管参数快速扩大,但是这个参数特征之间的这个关系有可能并不会被稀释,就这个特征仍然会保留下来。所以呢,这种 upcycling ,并不会彻底改变模型本身的这种核心关键的参数特征。

那么为什么要去做这样的这种从这个 dense 变成这种 sparse 的这种结构呢?是因为当不同的功能分块之后,这种混合专家呢他在进行计算的时候,并不需要整个大模型的全部动员起来进行计算,那实际上的我的这个资源消耗会减少,计算过程会加加快。那么推理的时候也是只需要去利用这块来进行推理,就可以完成相应的这个功能。

所以不管是这个训练速度还是推理速度,在进行这个稀疏化之后,这种混合专家模型速度都会更快,同样的能耗也会更低,这个就是这个 upcycling 的这个好处。

AI大模型“滴血认亲”事件

科普内容

upcycling技术

  1. 含义:目前AI大模型领域常见的模型优化及调整方式,通过重用现有模型结构,进行结构优化、参数调整或重新训练等提升模型最终效果。
  2. 常见方向 - sparse upcycling原理:将稠密大模型稀疏化,扩展参数规模,通过架构调整使模型不同部分承担不同功能,形成混合专家模型。例如从4亿、8亿参数的稠密模型扩展为40亿、80亿参数的稀疏模型。优势:计算时无需动员整个大模型,减少资源消耗,加快计算速度,训练和推理速度更快,能耗更低。
  3. 关键特性:从稠密到稀疏模型扩展过程中,参数特征关系可能不会被稀释,核心关键参数特征不会彻底改变。该技术最早由Google在2022年测试并取得不错结果,之后应用增多。

模型指纹技术(fingerprint)

  1. 定义:模型研发者在训练过程中针对特定prompt进行设计,使相关知识散布在多个参数区域,且prompt输入与回答有强对应关系,这组prompt与answer成为模型的fingerprint。
  2. 作用:判断模型之间的继承关系及潜在抄袭现象。即使模型被upcycling优化,特定prompt输入产生的输出仍不变,通过此可识别模型是否抄袭或基于原有开源模型优化。
  3. 与watermark区别:watermark是在模型结果生成后输出环节添加的标识,类似猪肉出厂的检验检疫章;fingerprint则是内嵌在模型内部,如同猪吃饲料时饲料带有的特定元素融入猪肉中,只要模型涉及相应prompt,就会有对应结果,通过输入输出测试即可判断。

核心参数特征比对方法

  1. 数据来源:在大语言模型基本为Transformer架构下,利用self attention机制中的核心中间变量q、k、v通过线性变换得到的权重矩阵(如WQ、WK、WV),这些是大模型核心参数一部分。
  2. 处理方式:基于分层的QKV矩阵取标准差,然后归一化,形成模型参数的特征排列,按分层将神经网络各层特征标准化排列。不同来源大模型参数基本特征应不同,因模型起始训练时随机参数不同会导致最终结果有差异。全面采集两个大模型参数特征并组织,判断参数特征相似关系,可判断模型间是否有继承关系。此数据分析和提取以公开方式进行,模型开源后参数公开可验证。

honest AGI指控相关情况

  1. 比对结果:honest AGI通过核心参数特征值比较判断盘古与千问模型相关度,其账号已关闭。从网页快照结果看,其统计图表显示LLama3.1与其他模型相关度低,而盘古与千问2.5多个参数模型相关度高,如盘古与千问2.5 320亿参数模型相关度93.5%,与720亿参数模型相关度82.9%等。此外,honest AGI还给出有关projection BIAS的结果,显示盘古与千问相关参数和权重接近。
  2. 现状:honest AGI删帖跑路,目前数据缺乏实锤,抄袭与否未知。但如果真抄袭,阿里千问开发方可用fingerprint技术验证,不过是否公布结果未知。同时,此事件凸显模型研发要注意知识产权问题,且第三方可通过公开的参数特征比对方式对模型相似度提出疑问,未来可能会发现更多模型间的隐秘关系 。

发表评论

泰日号Copyright Your WebSite.Some Rights Reserved. 网站地图 备案号:川ICP备66666666号 Z-BlogPHP强力驱动