苹果即将在9月份秋季发布会上带来Apple Watch Ultra 3,这款专为极限运动与专业户外用户打造的旗舰手表,将带来你最关心的血压侦测功能、更...
2025-07-07 0
6月30日开源盘古Pro MOE 720亿参数的混合专家模型开源及基于升腾芯片的模型推理技术。然而,48小时前,独立账号honest AGI在GitHub发帖指控盘古大模型最新版Pro moe采集的核心参数特征与阿里通义千问2.5的核心参数特征相关度高达0.927,甚至盘古大模型相关程度比千问其他版本与千问2.5之间的相关度还高,同时指出Meta的LLAMA 3.1版本与千问2.5之间相关度不到20%。
如果这个这位 honest AGI 它的计算以及它的这个参数特征提取没有错的话。那么就这样的一个结果,只能得到一个大胆的假设,注意是假设哈,就是盘古 Pro moe 这个混合专家模型并非完全是从零训练开始的。那么只有可能是在阿里千问模型的基础上,通过 upcycling的方式升级训练以及模型架构调整得到的。upcycling目前 AI 大模型领域常见的这种模型优化以及调整的这个方式。
对于新的研发来说,也可以站在现有的这个大模型基础上,在肩膀上进行研发。那么这种研发的方式,其中一个重要的方向就是 upcycling, 就是通过重用现有的这个模型的结构,进行相应的结构优化,或者是参数调整,或者是这个重新的训练等等,那么提升整个模型最终的效果。
大模型,尤其是上百亿参数的大模型实际上内部是非常稀疏的,就好像是一个巨大的网一样,那网的大部分节点其实都是没有用的,没有特定的信息在里头,只是少部分节点是有非常丰富的信息。少部分节点的计算决定了最终这个大模型的输出的结果。那么上百亿参数大模型很大程度上是所谓的这种稀疏的。
同样的,现在还有很多,大家通常俗称为小模型,其实它还是大模型,只是规模相对小一些,比如说,2亿、4亿、8亿,包括十几亿参数的都是就很紧凑,模型规模比较小的。我们通常的叫做 dense 的大模型,或者是稠密的大模型。那么这种稠密的大模型呢,往往内部的这些神经元,它都承担着这个复杂的计算任务。它不会是稀疏的,它是相对来说是比较紧密的。
那么其中的一个 upcycling 的方式,就是原来的这个稠密的这个大模型,可以把它稀疏化。本来是4亿的参数,8亿的参数,通过稀疏化扩展成为40亿的参数,80亿的参数。那么这时候以前密集的打散了,变成更加稀疏的方式。那么在变成稀疏方式的过程中间呢,通过架构调整,使得模型的不同部分承担不同的功能。比如说这部分专门处理音频,那部分专门进行图像识别,另外一部分可能是专门做相关的这个计算,那么这个,就是我们所谓的这个混合专家模型,每一块大模型,稀疏网状大模型里头的某一部分,专门承担某一个功能。
在 dense 这种稠密大模型里头,你是没有办法分的,因为参数有限,那么所有的功能全部混在一起。如果通过这种 upcycling 的方式来进行分散,那就可以做到这种不同 parts 不同的部分去完成不同的专家,这个混合专专家的功能,配合到一起来工作。所以,这个就是所谓的这个 sparse upcycling 的这样的一个工作模式。
注意,从一个稠密的大模型,一个 dense 的大模型,通过这种 sparse upcycling 的方式扩展成为更大模型的这个参数的过程中间,尽管参数快速扩大,但是这个参数特征之间的这个关系有可能并不会被稀释,就这个特征仍然会保留下来。所以呢,这种 upcycling ,并不会彻底改变模型本身的这种核心关键的参数特征。
那么为什么要去做这样的这种从这个 dense 变成这种 sparse 的这种结构呢?是因为当不同的功能分块之后,这种混合专家呢他在进行计算的时候,并不需要整个大模型的全部动员起来进行计算,那实际上的我的这个资源消耗会减少,计算过程会加加快。那么推理的时候也是只需要去利用这块来进行推理,就可以完成相应的这个功能。
所以不管是这个训练速度还是推理速度,在进行这个稀疏化之后,这种混合专家模型速度都会更快,同样的能耗也会更低,这个就是这个 upcycling 的这个好处。
科普内容
相关文章
苹果即将在9月份秋季发布会上带来Apple Watch Ultra 3,这款专为极限运动与专业户外用户打造的旗舰手表,将带来你最关心的血压侦测功能、更...
2025-07-07 0
王小川可能是全中国最惨的AI创业者——没有之一。前有搜狗上市荣光,后有百川智能高管集体跑路;左手数亿融资烧光,右手医疗赛道踩巨坑。当年喊着要做"中国O...
2025-07-07 0
7 月 7 日消息,博主@数码闲聊站 今日曝光了一款年底新旗舰的影像配置,结合此前爆料来看预计是华为 Mate 80 系列。独家信息,年底新旗舰 CI...
2025-07-07 0
基于 3C 认证,近期充电宝行业大震,频频登上行业热搜。在这场风暴中,曾经的行业老将,罗马仕,竟然成了第一个岌岌可危的选手。前不久我们也聊过➡️充电宝...
2025-07-07 0
来源:【常州日报-常州网】6月23日早上9时,亿泽智研谷2号楼,江苏立教信息科技有限公司(简称立教科技)的工程师刚在电脑上敲定AI编程积木的电路设计,...
2025-07-07 0
前言越南签完美国协议才24小时,河内那股庆祝劲儿还没过。转折来了!特朗普竟然同一天就对中国连解两道禁令:乙烷出口放开,芯片软件也松绑,这变脸速度真是让...
2025-07-07 0
铭赛科技西南总部落户成都其新成立的铭赛机器人(成都)有限公司已于近日完成注册深圳市环茂数码科技有限公司启动小批量试产简州新城消防战勤保障中心项目主体结...
2025-07-07 0
7月4日,第三届光明非遗艺术周在红花山公园启幕,为市民奉上了一场集传统非遗展示、现代科技体验与生态休闲于一体的文化大餐,丰富的非遗展示、体验活动将持续...
2025-07-07 0
发表评论