小扎「梦之队」首批论文上线，LLM自举进化，单步性能狂飙22%

抖音快讯 2025年09月09日 12:25 1 admin

真Meta Superintelligence Labs新作来了！LLM学会「自我改进」：只做单步训练，推理却能多步迭代。在数学、工具调用、多轮任务到MLE-bench上，ExIt持续拔高模型表现，其中MLE-bench相对GRPO提升约22%。

Meta超级实验室「Meta Superintelligence Labs，MSL」发了新论文！

如果你不断让大语言模型回答「把它改进一下」，会发生什么？

上周，MSL的三位成员上传了一篇ArXiv论文，探索了如何利用强化学习（RL）高效地微调大语言模型。

传送门：https://www.arxiv.org/abs/2509.04575

在推理时，LLM这次实现了迭代自我改进。

自我改进决策过程+GRPO

训练具备迭代自我改进能力的模型，代价不菲。

最直接的做法是训练模型执行K步自我改进，但这会让每个训练回合的轨迹步数（rollout步数）膨胀为原来的K倍。

他们提出了一种新的方法——探索迭代（Exploratory Iteration，ExIt）。

这是一个基于RL的自动课程学习方法。

通过「回收利用」大语言模型先前回合中生成的回答，新方法把这些回答作为新的起点，用于自我改进（self-improvement）或自我发散（self-divergence），从而逐步扩展和多样化训练分布。

探索迭代（ExIt）策略概览

DeepSeek的强化学习微调方法GRPO，性能强大，而且与之前的PPO方法相比减少了资源需求。

与PPO不同，GRPO不使用学习到的价值函数来计算基线项，而是使用一组G条蒙特卡洛轨迹，估计每个初始提示m的基线。

在此过程中，「可学习性分数」在训练过程中自然产生。

在决定下一个训练任务时，ExIt的课程机制会优先抽取那些在GRPO表现出更高回报方差的部分历史。

通过这种自举任务空间的自动课程，模型学会多步自我改进，但训练仅需单步任务。

为了抵消强化学习减少输出多样性的倾向，研究者直接纳入了寻求多样性的组件：发散改进（self-divergence）。

以概率p_div，自我迭代步成为自我发散步。

在这一步中，策略被提示在先前解决方案的基础上进行改进，同时显著偏离它（见下列提示）。

他们发现：

发散步能够从模型中诱导出有意义的不同响应，当整合到ExIt策略中时，可以增加任务空间的覆盖范围。

机器学习工程MLE-Bench比GRPO强22%

在单轮（竞赛数学问题）和多轮（BFCLv3多轮任务）场景中，以及MLE-bench中，研究者考察了ExIt的影响。

表1：在保留的任务实例上对ExIt及其消融实验和GRPO基线的评估。数学结果是对所有测试分割的平均值。所有结果都是在3次训练运行后经过16次改进步骤的性能的均值和标准差，以及从初始响应到经过K次自我改进步骤后的最终响应之间的净百分比改进(ΔK)

在MLE-bench中，大语言模型在搜索框架下运行，以产生针对真实Kaggle竞赛的解决方案。

在这些评估设置中，与GRPO相比，ExIt产生的模型在推理时具有更强的自我改进能力。

值得注意：在测试时，ExIt可进行超过训练典型深度的自我迭代；在MLE-bench上，对GRPO的相对提升约22%（58.6vs48.0）。

尽管在MLE-bench上，这次研究者使用简单的贪心搜索框架评估了ExIt，但这里的核心思想也可以应用于其他搜索框架。

实际上，其中许多都是while循环，在给定合适上下文的情况下，指示LLM对先前的解决方案进行自我改进。

作者进一步分析了不同方法在训练过程中所采样到的任务实例的多样性。

下图展示了各方法采样到的训练任务实例数量，相对于GRPO使用的基础训练集的比例。

实验结果表明：

1. 仅使用课程学习的基线方法会显著减少训练中遇到的不同任务实例数量。这说明优先级采样会导致同一训练实例被大量重复，从而压缩了任务多样性。

2. 这种任务多样性的降低，可能正是该基线方法表现逊色于ExIt变体的原因。而在ExIt中，自我迭代步骤有效地恢复了相当一部分丢失的多样性。

3. 对于完整的ExIt方法，我们观察到在课程机制下提升的多样性，与其在测试集上性能的提升相对应。

此外，在GRPO的基础分布中，所有MLE-bench任务起始点相同（同一个空Python模板）；但ExIt下起始代码多样性大幅增加。

上图的右侧的UMAP降维结果进一步凸显了ExIt变体与基础任务集之间的差异：

在嵌入空间中，基础任务集几乎只是单一的一个点，而ExIt所产生的任务实例分布则显著更为分散。

直接追求新颖性的ExIt变体，能够在发现的任务实例中实现更高的平均余弦距离与L2距离。

其中，完整的ExIt方法达到了最大化的平均两两距离，这说明它在任务空间探索中最具多样性。

作者简介

第一作者，Minqi Jiang今年1月加入Meta，担任高级研究科学家，构建超级智能体。

从泛化（generalization）、人机协同（human-AI coordination）与开放式学习（open-ended learning）三个视角，他研究「既有用、又符合人类价值」的智能体。

他在谷歌的DeepMind人研究科学家期间，在Autonomous Assistants（自主助理）团队开始了这项研究。

他与Meta的渊源则更深。在2023年9月–2023年12月，他担任了Meta的访问研究员（Visiting Researcher），之后加入谷歌，直到今年1月再次入职Meta。

更早之前，他有多段创业和工作经历。

2008年-2012年，他就读于普林斯顿大学（Princeton University），获得了计算机科学、应用数学、创意写作学士学位。

2019年–2023年，他在伦敦大学学院（UCL）攻读计算机科学人工智能方向博士学位。

2023年1月–2023年6月，他还是牛津大学（University of Oxford）的访问研究员。

本文来自微信公众号“新智元”，作者：KingHZ ，36氪经授权发布。

“碳”索未来｜一封感谢信，来自黑龙江！

终于懂了“微信小程序跑得快如何让系统发好牌”（有没有猫腻)

发表评论

小扎「梦之队」首批论文上线，LLM自举进化，单步性能狂飙22%

自我改进决策过程+GRPO

机器学习工程MLE-Bench比GRPO强22%

作者简介

“碳”索未来｜一封感谢信，来自黑龙江！

终于懂了“微信小程序跑得快如何让系统发好牌”（有没有猫腻)

最新评论

最新留言

标签列表