在西藏自治区林芝市,一项堪称世纪工程的项目正在悄然展开,它就是雅鲁藏布江下游水电工程。这项工程的开工,犹如一颗巨石投入平静的湖面,在国内外引发了广泛的...
2025-09-04 0
过去两年,整个 AI 行业因为大模型而狂踩油门:参数量从百亿推到万亿,算力预算从几千万美金飙升到几十亿美金。
然而,最近一段时间新出的模型能力增长逐渐放缓,简单粗暴地堆砌算力和数据带来的边际效益不断递减,很多人开始怀疑大模型的规模定律(Scale law)是否已经失效。
我们真的撞上数据墙了吗?
DatologyAI 的创始人 Ari Morcos 给出的答案是:
数据是 AI 研究中影响最大、但投入最少的领域。
他反复强调的核心观点是:模型吃进去什么,就会成为什么。(Models are what they eat.)
他认为,与其无休止地堆砌算力、陷入规模化的「收益递减」陷阱,不如回归本源,通过极致的数据策展 (Data Curation),让模型「吃」得更好、学得更聪明。
为什么数据如此重要?在「算法—算力—数据」的三驾马车中,为何 Ari 认为数据才是那个最被低估的变量?
要理解 Ari 为什么押注于数据,要先回顾一下他的学术经历。
Ari 的博士背景不是计算机,而是神经科学。他的博士课题是训练小鼠「数数」,然后记录成千上万个神经元的活动,尝试解释「计数」行为背后的动力学,来研究智能的生物学基础。
这段经历让他养成了用经验科学思考问题的习惯:先通过实验理解系统,再利用这种理解去改进系统。
为了处理这类高维数据,他开始学习并深入机器学习。2011 年之后,AlexNet、DQN 等里程碑接连出现,让他下定决心转向 AI。
带着经验科学的思维,Ari 想为深度学习建立一套「可解释的科学框架」:不仅要知道什么好用,更要理解为什么好用。他理想中的论文,前半段解释机理,后半段据此改进模型。
现实却很快泼了冷水。
弄清「为什么有效」并不算难,真正难的是用这种理解去把系统做得更好。
这让他意识到:很多看似与性能相关的可解释指标,一旦直接去优化,往往只是相关性而非因果性。
这种挫败感在 2020 年到达了顶峰。他也意识到:数据,才是决定性因素。
当时他研究的是归纳偏置——通过改动架构或目标,把先验(如局部性、平移不变性)注入模型,使其在小数据场景学得更好。这是当年的主流方向。
他的一个工作把 ViT 权重等效初始化成 CNN:这样既拥有 CNN 的归纳偏置,又能在训练中「逐步忘掉」这种偏置。
结果却耐人寻味:
再加上 Transformer 自带较少归纳偏置,却在超大数据上表现亮眼,Ari 开始反思:他研究了六年的偏置,在大数据时代似乎并不关键。
这正是苦涩教训(The Bitter Lesson)在他身上的写照:能更好利用算力与数据的通用方法,最终会胜过依赖人类专家知识的特定技巧。
这对我来说是一个非常痛苦的时刻。我花了六年职业生涯研究归纳偏置,但好几篇论文同时告诉我,我一直在做的事情,其实没那么重要。
冷静之后,路只剩两条:要么把 GPU 转得更快,要么研究数据。对非硬件工程师而言,答案不难选。
而数据研究最吸引他的一点在于:科学上有趣的问题,往往和实践中有用的问题高度重合。
理解一个数据点为什么有用,几乎可以立刻指导数据集的改造,从而提升模型。这种「知行合一」,让他把职业筹码压在数据上。
Ari 的判断很直接:相对于其影响力,数据在 AI 研究中长期投入不足。
他认为,这背后是科研文化、激励机制和历史惯性共同作用的结果。
首先是文化偏见:数据工作往往被视作二等工作,它是「脏活累活」,是「管道工程」,缺乏顶级科学家所追求的「荣耀感」。所以很多人觉得数据清洗是无聊的、重复性的劳动。
但其实不少一线研究者会承认——要想做出好结果,第一件事是把数据搞明白。模型终究只是它所见过数据的镜像,这种琐碎又关键的工作,在文化上并未得到应有的尊重。
其次,研究激励的错位:长期以来机器学习的范式都是:给定一个数据集(比如如 ImageNet 或 Kaggle 竞赛),然后去优化测试集表现。
在这种逻辑下,数据往往被当作常量,创新自然集中在模型与算法。
最后则是时代背景的变化:2019 年前,主流是监督学习,那是一个「数据稀缺时代」。有标签数据成本高,而且因有人类参与,质量至少有下限。
自监督学习崛起后,游戏规则被彻底改写:无论语言里的「下一个词预测」,还是视觉里的对比学习,模型开始从无标注数据里自我学习。
随之而来的,是数据规模从百万级(ImageNet)跃迁到万亿级(Trillion tokens),增长了百万倍。
这也导致 AI 的核心矛盾也从「数据稀缺」转为「数据过多」:
来到数据过多的时代,如何去除冗余?如何度量信息增益?过去不显眼的问题成了头号难题。
「Garbage in,Garbage out」的朴素常识,与上述假设显然不兼容。由此,数据策展(Data Curation)的重要性被推至前所未有的高度。
添加图片注释,不超过 140 字(可选)
很多人把数据工作等同于「筛选/清洗」。但在 Ari 看来,这只是冰山一角。真正的数据策展是更系统的工程,它涉及到:
对于数据策展,Ari 认为,要重点理解「冗余」和「自动化」两个概念。
过滤的核心挑战之一,在于如何处理冗余。完全去除冗余是错误的,它会损害模型的泛化能力。但无限的冗余同样是灾难。
Ari 用了个形象比喻:「大象」和「狗」。
要让模型真正理解「狗」,所需数据量和冗余度显然远高于「大象」。
一个优秀的数据策展系统,需要在无监督条件下自动发现成千上万个类似「象/狗」的概念,评估各自复杂度,再决定每个概念保留多少冗余。这是人类很难胜任的任务。
有人会问:请专家挑不就好了吗?Ari 却认为,这套复杂系统必须是自动化的,甚至要刻意排除「人」的干预。
他引用了斯坦福主导的 DCLM(DataComp for Language Models)项目作为例子:
约 30 位顶尖博士生用两年时间搭了个自动筛选高质网页文本的系统。最后做了个测试:让这些刚研究完筛选策略的专家去预测系统会「保留还是剔除」某条样本。
结果是:这些专家的预测准确率,和随机猜测没有区别。
为什么会这样?Ari 的解释是:「一个数据点的价值,并非由其本身决定,而是由它与训练集中所有其他数据点的关系决定的。」
举例来说,你就算有一万篇《哈姆雷特》的剧情摘要,每篇的质量到很高,但模型真的需要一万篇吗?人类无法在脑中装着整个数据集来进行这种全局权衡判断,但算法可以。
但机器可以——因此数据策展必须自动化,不仅因为规模,更因为人类在这类判断上并不可靠。
在众多数据策展技术里,合成数据是眼下最热门的方向之一,但也充满了争议,尤其是关于「模型坍塌」(Model Collapse) 的担忧。
Ari 将合成数据分为两种截然不同的范式:
第一种是「从无到有」。这种方法让一个大模型凭空生成新的知识。这是危险的,因为它极易导致模型坍塌。生成模型倾向于过拟合数据分布的「众数」(modes),而欠拟合「长尾」(tails)。如果用它生成的数据再进行训练,会导致多样性不断丧失,最终模型只会输出千篇一律的内容。
第二种是「转述/重写」。这种方法更为安全。它的核心思想是:知识来源于原始数据,而非生成模型。模型扮演的角色,仅仅是将原始数据中的信息,用一种更清晰、更结构化、或更符合下游任务的形式重新组织一遍。
做 Rephrasing 的模型,只需要知道如何转述,它甚至不需要理解内容本身。这意味着,你可以用一个相对较弱的模型,去生成能教会一个更强模型的数据。
这打破了传统知识蒸馏中「学生无法超越老师」的天花板。因为知识的源头是高质量的原始数据,而非老师模型。
DatologyAI 近期的 BeyondWeb 论文,系统总结了他们在合成数据上的七点体会。
基于这些经验,BeyondWeb 在 8B 模型实验中给出了亮眼结果:用 BeyondWeb 数据训练,速度比普通网络数据快 7.7 倍;
他们甚至一个在 BeyondWeb 上训练的 3B 模型,表现能超过在其他数据集上训练的 8B 模型。
这无疑展示了数据策展的杠杆效应。
Ari 用三个词概括 DatologyAI 对客户的价值:更快(Faster)/ 更好(Better)/ 更小(Smaller)。
如果一年在推理上花 5000 万美元,但部署的模型比所需大了一倍,那就等于白烧了 2500 万。重训一个同等性能的专用小模型,可能只需两三百万,这笔账很好算。
很多企业需要的不是一个能写诗、能聊天的通用大模型,而是一个「一英寸宽,一英里深」的专家模型:它能以 99.999% 的可靠性,用尽可能低的成本,完成那一小撮核心任务。
过去,阻碍企业训练自己模型的有两大障碍:训练基础设施和数据。如今,像 MosaicML、Together AI 等公司已经大大降低了训练的门槛。而 Datology 的使命,就是推倒另一座大山——数据的屏障。
一个具体案例是与 RC 基础模型的合作。从 25 万亿 tokens 的原始池子起步,经过策划筛到 7 万亿 tokens 的高质量集合——结果不仅性能更强,达到同等水平的训练速度也显著提升。
这说明数据策划的收益可以叠加:即便从当下最好的开源数据出发,依然能进一步挖出可观增量。
Datology 公司名字已点明他们的野心:Datology = Data + Ology,可以理解成「数据管理学」。
Ari 的愿景,是把这门新学科自动化、工具化,让曾经只在顶级实验室里口口相传的数据秘笈,变成任何想训练自有模型的团队都能触手可及的基础设施。
当行业还在模型和算力上内卷的时候,真正能改写游戏规则的,或许是对数据的重新认真。
AI 的尽头,未必是更大的模型,而是更好的数据。一个属于「数据管理学」的时代,正在到来。
本文参考来源:
相关文章
在西藏自治区林芝市,一项堪称世纪工程的项目正在悄然展开,它就是雅鲁藏布江下游水电工程。这项工程的开工,犹如一颗巨石投入平静的湖面,在国内外引发了广泛的...
2025-09-04 0
9月3日消息,近日Ulefone正式推出其最新旗舰三防设备——Armor 29 Pro热成像版。这可不是普通手机,而是一台能“看见温度”的超级工具箱。...
2025-09-04 0
据统计,2024 年便利店 Top100 企业门店数共有 19.6 万家,而美宜佳以 37943 家门店位居榜首。当然,在迅猛强势的门店扩张后,不仅仅...
2025-09-04 0
原标题——张晓强调研生物医药产业高质量发展工作时强调加快科技创新和产业创新深度融合推动生物医药产业发展提质升级 9月2日,省委常委、市委书记张晓强到...
2025-09-04 0
【来源:济南市科技局_科技新闻】9月3日,济南植物基因编辑项目科技财政资金“拨改投”签约活动在山东科技大市场成功举行。省科技厅副厅长祝恩元,市科技局局...
2025-09-04 0
36氪获悉,近日,OpenDataLab和钉钉基于MinerU,推出一款面向企业用户的文档解析工具DLU(Document Language Unde...
2025-09-04 0
Tech星球9月4日消息,据快科技报道,日前,南京一位女士在5月花费10元购买了优酷平台“酷喵”一个月的SVIP会员,但未被告知该会员服务会自动续费。...
2025-09-04 0
发表评论