再见，数据标注！腾讯发布R-Zero框架，让AI自己训练自己

抖音热门 2025年09月04日 20:59 1 admin

大数据文摘出品

一个不再依赖人类数据标注的大模型训练框架，它来了！

由腾讯AI Lab与美国圣路易斯华盛顿大学联合开发的新框架“R-Zero”，成功展示出大语言模型（LLM）如何靠自己训练自己，不再需要人类提供任务或答案。

论文地址： https://www.arxiv.org/pdf/2508.05004

这个突破的核心，是彻底摆脱人类标注数据的依赖，靠模型之间的博弈，自动生成、筛选和吸收新的训练内容。

他们用强化学习的方法，让两个AI模型互相挑战、不断进化，从零开始构建出一个高质量的训练体系。

R-Zero采用的结构，是将一个基础模型一分为二，分别扮演“挑战者”和“解答者”两个角色，分别训练，但共同进化。

挑战者的目标是设计刚好够难的问题，逼迫解答者必须进步；而解答者在解决这些问题中获得奖励和提升。

“不是找到答案难，而是提出好问题难。”显然，真正稀缺的是“好老师”，而不是“好学生”。

R-Zero就是通过自动化产生“老师”，让模型不断面对新的、更难的考题，从而不断突破原有水平。

01 R-Zero的实验结果

R-Zero的实验效果远超预期，尤其是在推理能力方面，不同规模的开源大模型均出现明显性能跃升。

腾讯测试了多个模型家族，包括Qwen3系列和OctoThinker，在基础模型上仅通过R-Zero训练，就让推理能力显著提升。

例如，Qwen3-4B-Base在数学推理测试中得分平均提升+6.49分；Qwen3-8B-Base在三轮训练后得分也提升了+5.51分。

更重要的是，这种通过数学任务训练得到的推理能力，可以成功迁移到通用推理任务上。

在MMLU-Pro和SuperGPQA等通用领域测试中，Qwen3-4B-Base同样表现出+7.54分的跃升，说明R-Zero训练的不只是技巧，而是底层能力。

甚至在后续再用传统标注数据微调时，经过R-Zero预训练的模型也能表现得更好。

对企业而言，R-Zero的“从零数据”方式尤其具有吸引力，因为许多垂直行业领域，压根没有高质量的大规模数据集可供使用。

腾讯的这项研究直接绕开了数据收集、人工标注这些最昂贵、最耗时的流程，变相打破了AI发展的最大天花板：人类知识和数据的边界。

02 但问题同样存在

尽管R-Zero在性能上令人振奋，但它也暴露出自我进化AI的核心风险：数据质量的失控。

研究者发现，随着挑战者不断提出更复杂的问题，解答者给出的“多数票答案”正确率开始下降。

第一轮训练中，自动生成数据的准确率为79%，而到第三轮下降至63%。

相比之下，一个“强大而理想”的大模型如GPT-4，可以保持更高的正确率，这种落差说明自我进化的过程可能存在精度塌陷的风险。这是这个新范式面临的最大瓶颈。

目前论文成果只是概念验证，要真正做到持续稳定进化，不出现性能平台期，是接下来整个研究社区要攻克的难关。

此外，R-Zero目前仅适用于“答案可验证”的任务，如数学推理、科学问答等，其优势来自于能够清晰判断“对”与“错”。

那在没有“标准答案”的领域怎么办？比如营销文案、情感写作、摘要生成？

腾讯提出了未来的一种可能方向：引入第三个模型角色“验证者”或“评论员”。

验证者将不再判断对错，而是评价内容的质量，从多个维度给予评分。

如此一来，挑战者继续生成题目，解答者负责作答，而验证者则提供反馈。三方协同进化，形成更复杂、更全面的智能结构。

或许会推动AI从“逻辑能力”迈向“主观判断”，不仅懂计算，更懂人类世界的模糊与语境。

注：头图AI生成

作者长期关注 AI 产业与学术，欢迎对这些方向感兴趣的朋友添加微信 Q1yezi，共同交流行业动态与技术趋势！

GPU 训练特惠！

H100/H200 GPU算力按秒计费，平均节省开支30%以上！

点「赞」的人都变好看了哦！

关于“微信打麻将开挂辅助器”（软挂神器)

发表评论