首页 抖音推荐文章正文

模型更大不如数据更好?自监督学习时代如何做好「数据管理学」

抖音推荐 2025年08月31日 21:42 2 admin

过去两年,整个 AI 行业因为大模型而狂踩油门:参数量从百亿推到万亿,算力预算从几千万美金飙升到几十亿美金。

然而,最近一段时间新出的模型能力增长逐渐放缓,简单粗暴地堆砌算力和数据带来的边际效益不断递减,很多人开始怀疑大模型的规模定律(Scale law)是否已经失效。

我们真的撞上数据墙了吗?

DatologyAI 的创始人 Ari Morcos 给出的答案是:

数据是 AI 研究中影响最大、但投入最少的领域。

他反复强调的核心观点是:模型吃进去什么,就会成为什么。(Models are what they eat.)

模型更大不如数据更好?自监督学习时代如何做好「数据管理学」

他认为,与其无休止地堆砌算力、陷入规模化的「收益递减」陷阱,不如回归本源,通过极致的数据策展 (Data Curation),让模型「吃」得更好、学得更聪明。

为什么数据如此重要?在「算法—算力—数据」的三驾马车中,为何 Ari 认为数据才是那个最被低估的变量?

一位神经科学家的「苦涩教训」

要理解 Ari 为什么押注于数据,要先回顾一下他的学术经历。

Ari 的博士背景不是计算机,而是神经科学。他的博士课题是训练小鼠「数数」,然后记录成千上万个神经元的活动,尝试解释「计数」行为背后的动力学,来研究智能的生物学基础。

这段经历让他养成了用经验科学思考问题的习惯:先通过实验理解系统,再利用这种理解去改进系统。

为了处理这类高维数据,他开始学习并深入机器学习。2011 年之后,AlexNet、DQN 等里程碑接连出现,让他下定决心转向 AI。

带着经验科学的思维,Ari 想为深度学习建立一套「可解释的科学框架」:不仅要知道什么好用,更要理解为什么好用。他理想中的论文,前半段解释机理,后半段据此改进模型。

现实却很快泼了冷水。

弄清「为什么有效」并不算难,真正难的是用这种理解去把系统做得更好。

这让他意识到:很多看似与性能相关的可解释指标,一旦直接去优化,往往只是相关性而非因果性

这种挫败感在 2020 年到达了顶峰。他也意识到:数据,才是决定性因素

当时他研究的是归纳偏置——通过改动架构或目标,把先验(如局部性、平移不变性)注入模型,使其在小数据场景学得更好。这是当年的主流方向。

他的一个工作把 ViT 权重等效初始化成 CNN:这样既拥有 CNN 的归纳偏置,又能在训练中「逐步忘掉」这种偏置。

结果却耐人寻味:

  • 小数据场景下,比如 < 50 万张图时,「软性归纳偏置」很有用。这类方法后来在火山预测等数据稀缺的科学任务上被频频引用。
  • 但数据量上来后,这种优势逐渐消失;当样本超过百万,精心设计的偏置甚至开始拖后腿

再加上 Transformer 自带较少归纳偏置,却在超大数据上表现亮眼,Ari 开始反思:他研究了六年的偏置,在大数据时代似乎并不关键。

这正是苦涩教训(The Bitter Lesson)在他身上的写照:能更好利用算力与数据的通用方法,最终会胜过依赖人类专家知识的特定技巧

这对我来说是一个非常痛苦的时刻。我花了六年职业生涯研究归纳偏置,但好几篇论文同时告诉我,我一直在做的事情,其实没那么重要。

冷静之后,路只剩两条:要么把 GPU 转得更快,要么研究数据。对非硬件工程师而言,答案不难选。

而数据研究最吸引他的一点在于:科学上有趣的问题,往往和实践中有用的问题高度重合

理解一个数据点为什么有用,几乎可以立刻指导数据集的改造,从而提升模型。这种「知行合一」,让他把职业筹码压在数据上。

数据:AI 里最被低估的赛道

Ari 的判断很直接:相对于其影响力,数据在 AI 研究中长期投入不足

他认为,这背后是科研文化、激励机制和历史惯性共同作用的结果。

首先是文化偏见:数据工作往往被视作二等工作,它是「脏活累活」,是「管道工程」,缺乏顶级科学家所追求的「荣耀感」。所以很多人觉得数据清洗是无聊的、重复性的劳动。

但其实不少一线研究者会承认——要想做出好结果,第一件事是把数据搞明白。模型终究只是它所见过数据的镜像,这种琐碎又关键的工作,在文化上并未得到应有的尊重。

其次,研究激励的错位:长期以来机器学习的范式都是:给定一个数据集(比如如 ImageNet 或 Kaggle 竞赛),然后去优化测试集表现。

模型更大不如数据更好?自监督学习时代如何做好「数据管理学」

在这种逻辑下,数据往往被当作常量,创新自然集中在模型与算法。

最后则是时代背景的变化:2019 年前,主流是监督学习,那是一个「数据稀缺时代」。有标签数据成本高,而且因有人类参与,质量至少有下限。

自监督学习崛起后,游戏规则被彻底改写:无论语言里的「下一个词预测」,还是视觉里的对比学习,模型开始从无标注数据里自我学习。

随之而来的,是数据规模从百万级(ImageNet)跃迁到万亿级(Trillion tokens),增长了百万倍

这也导致 AI 的核心矛盾也从「数据稀缺」转为「数据过多」:

  • 模型更容易欠拟合——数据多到模型永远学不完;
  • 质量下限消失——抓取来的互联网数据充满冗余、低质甚至有害信息;
  • 规模定律的失效——过去的规模定律基于一个理想化的假设:所有数据是独立同分布的,也就是假设所有数据点的价值都是相等的。

来到数据过多的时代,如何去除冗余?如何度量信息增益?过去不显眼的问题成了头号难题。

数据策展:不只是「清洗数据」

「Garbage in,Garbage out」的朴素常识,与上述假设显然不兼容。由此,数据策展(Data Curation)的重要性被推至前所未有的高度。

添加图片注释,不超过 140 字(可选)

很多人把数据工作等同于「筛选/清洗」。但在 Ari 看来,这只是冰山一角。真正的数据策展是更系统的工程,它涉及到:

  • 过滤(Filtering):识别并剔除低质量、低信息增益的数据。
  • 重均衡(Rebalancing):现实数据常呈长尾,如何上/下采样,让模型学到完整分布而不是只学头部模式;
  • 序列化(Sequencing):喂给模型的先后次序很关键,这让课程学习(Curriculum Learning)重焕生机。在「永远欠拟合」的时代,合理编排顺序能以更少算力达成同等效果;
  • 合成数据(Synthetic Data):如何用模型生成高质量合成样本来增强数据集;
  • 批处理(Batching):如何组织 batch,同样会影响学习速度。

对于数据策展,Ari 认为,要重点理解「冗余」和「自动化」两个概念。

「大象 vs. 狗」:理解数据冗余

过滤的核心挑战之一,在于如何处理冗余。完全去除冗余是错误的,它会损害模型的泛化能力。但无限的冗余同样是灾难。

Ari 用了个形象比喻:「大象」和「狗」。

  • 大象的形态差异较少,主要分为亚洲象与非洲象。让模型学会「大象」的概念,不需要巨量样本,太多重复只会浪费。
  • 则完全不同:数百个品种,体型、毛色、形态差异巨大。

要让模型真正理解「狗」,所需数据量和冗余度显然远高于「大象」。

一个优秀的数据策展系统,需要在无监督条件下自动发现成千上万个类似「象/狗」的概念,评估各自复杂度,再决定每个概念保留多少冗余。这是人类很难胜任的任务。

自动化 > 人类专家:我们其实并不擅长判断数据

有人会问:请专家挑不就好了吗?Ari 却认为,这套复杂系统必须是自动化的,甚至要刻意排除「人」的干预。

他引用了斯坦福主导的 DCLM(DataComp for Language Models)项目作为例子:

约 30 位顶尖博士生用两年时间搭了个自动筛选高质网页文本的系统。最后做了个测试:让这些刚研究完筛选策略的专家去预测系统会「保留还是剔除」某条样本。

结果是:这些专家的预测准确率,和随机猜测没有区别

为什么会这样?Ari 的解释是:「一个数据点的价值,并非由其本身决定,而是由它与训练集中所有其他数据点的关系决定的。」

举例来说,你就算有一万篇《哈姆雷特》的剧情摘要,每篇的质量到很高,但模型真的需要一万篇吗?人类无法在脑中装着整个数据集来进行这种全局权衡判断,但算法可以。

但机器可以——因此数据策展必须自动化,不仅因为规模,更因为人类在这类判断上并不可靠。

合成数据:不仅仅是「蒸馏」

在众多数据策展技术里,合成数据是眼下最热门的方向之一,但也充满了争议,尤其是关于「模型坍塌」(Model Collapse) 的担忧。

Ari 将合成数据分为两种截然不同的范式:

第一种是「从无到有」。这种方法让一个大模型凭空生成新的知识。这是危险的,因为它极易导致模型坍塌。生成模型倾向于过拟合数据分布的「众数」(modes),而欠拟合「长尾」(tails)。如果用它生成的数据再进行训练,会导致多样性不断丧失,最终模型只会输出千篇一律的内容。

第二种是「转述/重写」。这种方法更为安全。它的核心思想是:知识来源于原始数据,而非生成模型。模型扮演的角色,仅仅是将原始数据中的信息,用一种更清晰、更结构化、或更符合下游任务的形式重新组织一遍。

做 Rephrasing 的模型,只需要知道如何转述,它甚至不需要理解内容本身。这意味着,你可以用一个相对较弱的模型,去生成能教会一个更强模型的数据。

这打破了传统知识蒸馏中「学生无法超越老师」的天花板。因为知识的源头是高质量的原始数据,而非老师模型。

DatologyAI 近期的 BeyondWeb 论文,系统总结了他们在合成数据上的七点体会。

模型更大不如数据更好?自监督学习时代如何做好「数据管理学」

  1. 合成数据并不等同于知识蒸馏。简单摘要可以把「单位 token 信息密度」提上去,能做出类似 「生成驱动数据集」的效果;但精心设计的改写策略通常能走得更远。
  2. 要真正破墙,得靠好数据。仅让模型续写网络文本,相当于重复数据,收益很有限。真正能突破质量瓶颈的,是那些填补原始分布空白的合成样本。
  3. 高质量种子很重要,但不是全部。 以好数据为源头,改写后的质量显著更好;但只靠好源头还不够,要有合适的策略组合。
  4. 风格匹配有用,但天花板很快出现。 互联网上对话体不到 5%,可对话是主要交互方式。适当提高对话比例确实有益,但收益迅速饱和
  5. 多样性决定持续收益。 单一改写(例如全转成 Q&A)在训练早期有效,但很快瓶颈出现;只有策略多样,万亿 token 的长程训练才能持续爬升。
  6. 改写模型本身影响不大。 用不同家族(Llama、Mistral、OLMo)当改写器,产出的合成质量相差不多;而且改写器自身性能强弱与它产出数据的最终价值并非线性相关。
  7. 小模型也够用。改写器从 1B 升到 3B 收益明显;从 3B 到 8B 则趋于饱和。也就是说,做高质量合成数据未必需要巨型模型,从而显著降低门槛

基于这些经验,BeyondWeb 在 8B 模型实验中给出了亮眼结果:用 BeyondWeb 数据训练,速度比普通网络数据快 7.7 倍

他们甚至一个在 BeyondWeb 上训练的 3B 模型,表现能超过在其他数据集上训练的 8B 模型

这无疑展示了数据策展的杠杆效应。

更快、更好、更小:数据商业价值的三根支点

Ari 用三个词概括 DatologyAI 对客户的价值:更快(Faster)/ 更好(Better)/ 更小(Smaller)

  • 训练更快。 不只是节省几百万美元的单次训练费用,更关键是迭代提速:原本需要 10 天的训练,如今可能一夜完成,实验迭代数随之指数级上升。
  • 性能更好。 好数据是算力倍增器。同样预算下,用策划过的数据,效果更高。对于想用一千万预算做出过去一亿预算水平的团队,这点最具吸引力。
  • 模型更小。 对走在落地前沿的企业而言,推理成本是 TCO 的大头。一个“参数减半、效果不减”的小模型,相比通用大模型更具商业优势。

如果一年在推理上花 5000 万美元,但部署的模型比所需大了一倍,那就等于白烧了 2500 万。重训一个同等性能的专用小模型,可能只需两三百万,这笔账很好算。

很多企业需要的不是一个能写诗、能聊天的通用大模型,而是一个「一英寸宽,一英里深」的专家模型:它能以 99.999% 的可靠性,用尽可能低的成本,完成那一小撮核心任务。

过去,阻碍企业训练自己模型的有两大障碍:训练基础设施和数据。如今,像 MosaicML、Together AI 等公司已经大大降低了训练的门槛。而 Datology 的使命,就是推倒另一座大山——数据的屏障。

一个具体案例是与 RC 基础模型的合作。从 25 万亿 tokens 的原始池子起步,经过策划筛到 7 万亿 tokens 的高质量集合——结果不仅性能更强,达到同等水平的训练速度也显著提升。

这说明数据策划的收益可以叠加:即便从当下最好的开源数据出发,依然能进一步挖出可观增量。

小结:AI 的未来,仍需要挖掘更高质量的数据

Datology 公司名字已点明他们的野心:Datology = Data + Ology,可以理解成「数据管理学」。

模型更大不如数据更好?自监督学习时代如何做好「数据管理学」

Ari 的愿景,是把这门新学科自动化、工具化,让曾经只在顶级实验室里口口相传的数据秘笈,变成任何想训练自有模型的团队都能触手可及的基础设施。

当行业还在模型和算力上内卷的时候,真正能改写游戏规则的,或许是对数据的重新认真。

AI 的尽头,未必是更大的模型,而是更好的数据。一个属于「数据管理学」的时代,正在到来。


本文参考来源:

  • Better Data is All You Need — Ari Morcos, Datology
  • BeyondWeb: Lessons from Scaling Synthetic Data for Trillion-scale Pretraining

发表评论

泰日号Copyright Your WebSite.Some Rights Reserved. 网站地图 备案号:川ICP备66666666号 Z-BlogPHP强力驱动