首页 抖音热门文章正文

再见,数据标注!腾讯发布R-Zero框架,让AI自己训练自己

抖音热门 2025年09月04日 20:59 1 admin
再见,数据标注!腾讯发布R-Zero框架,让AI自己训练自己

大数据文摘出品

一个不再依赖人类数据标注的大模型训练框架,它来了!

由腾讯AI Lab与美国圣路易斯华盛顿大学联合开发的新框架“R-Zero”,成功展示出大语言模型(LLM)如何靠自己训练自己,不再需要人类提供任务或答案。

再见,数据标注!腾讯发布R-Zero框架,让AI自己训练自己

论文地址: https://www.arxiv.org/pdf/2508.05004

这个突破的核心,是彻底摆脱人类标注数据的依赖,靠模型之间的博弈,自动生成、筛选和吸收新的训练内容。

他们用强化学习的方法,让两个AI模型互相挑战、不断进化,从零开始构建出一个高质量的训练体系。

再见,数据标注!腾讯发布R-Zero框架,让AI自己训练自己

R-Zero采用的结构,是将一个基础模型一分为二,分别扮演“挑战者”和“解答者”两个角色,分别训练,但共同进化。

挑战者的目标是设计刚好够难的问题,逼迫解答者必须进步;而解答者在解决这些问题中获得奖励和提升。

“不是找到答案难,而是提出好问题难。”显然,真正稀缺的是“好老师”,而不是“好学生”。

R-Zero就是通过自动化产生“老师”,让模型不断面对新的、更难的考题,从而不断突破原有水平。

01 R-Zero的实验结果

R-Zero的实验效果远超预期,尤其是在推理能力方面,不同规模的开源大模型均出现明显性能跃升

再见,数据标注!腾讯发布R-Zero框架,让AI自己训练自己

腾讯测试了多个模型家族,包括Qwen3系列和OctoThinker,在基础模型上仅通过R-Zero训练,就让推理能力显著提升。

例如,Qwen3-4B-Base在数学推理测试中得分平均提升+6.49分;Qwen3-8B-Base在三轮训练后得分也提升了+5.51分。

更重要的是,这种通过数学任务训练得到的推理能力,可以成功迁移到通用推理任务上

在MMLU-Pro和SuperGPQA等通用领域测试中,Qwen3-4B-Base同样表现出+7.54分的跃升,说明R-Zero训练的不只是技巧,而是底层能力。

甚至在后续再用传统标注数据微调时,经过R-Zero预训练的模型也能表现得更好。

对企业而言,R-Zero的“从零数据”方式尤其具有吸引力,因为许多垂直行业领域,压根没有高质量的大规模数据集可供使用

再见,数据标注!腾讯发布R-Zero框架,让AI自己训练自己

腾讯的这项研究直接绕开了数据收集、人工标注这些最昂贵、最耗时的流程,变相打破了AI发展的最大天花板:人类知识和数据的边界。

02 但问题同样存在

尽管R-Zero在性能上令人振奋,但它也暴露出自我进化AI的核心风险:数据质量的失控

研究者发现,随着挑战者不断提出更复杂的问题,解答者给出的“多数票答案”正确率开始下降。

再见,数据标注!腾讯发布R-Zero框架,让AI自己训练自己

第一轮训练中,自动生成数据的准确率为79%,而到第三轮下降至63%

相比之下,一个“强大而理想”的大模型如GPT-4,可以保持更高的正确率,这种落差说明自我进化的过程可能存在精度塌陷的风险。这是这个新范式面临的最大瓶颈。

目前论文成果只是概念验证,要真正做到持续稳定进化,不出现性能平台期,是接下来整个研究社区要攻克的难关。

此外,R-Zero目前仅适用于“答案可验证”的任务,如数学推理、科学问答等,其优势来自于能够清晰判断“对”与“错”。

那在没有“标准答案”的领域怎么办?比如营销文案、情感写作、摘要生成?

腾讯提出了未来的一种可能方向:引入第三个模型角色“验证者”或“评论员”。

验证者将不再判断对错,而是评价内容的质量,从多个维度给予评分。

如此一来,挑战者继续生成题目,解答者负责作答,而验证者则提供反馈。三方协同进化,形成更复杂、更全面的智能结构。

或许会推动AI从“逻辑能力”迈向“主观判断”,不仅懂计算,更懂人类世界的模糊与语境。

注:头图AI生成

作者长期关注 AI 产业与学术,欢迎对这些方向感兴趣的朋友添加微信 Q1yezi,共同交流行业动态与技术趋势!

再见,数据标注!腾讯发布R-Zero框架,让AI自己训练自己

GPU 训练特惠!

H100/H200 GPU算力按秒计费,平均节省开支30%以上!

再见,数据标注!腾讯发布R-Zero框架,让AI自己训练自己再见,数据标注!腾讯发布R-Zero框架,让AI自己训练自己

点「赞」的人都变好看了哦!

发表评论

泰日号Copyright Your WebSite.Some Rights Reserved. 网站地图 备案号:川ICP备66666666号 Z-BlogPHP强力驱动