您好:这款游戏可以开挂,确实是有挂的,很多玩家在...
2025-09-04 0
大数据文摘出品
一个不再依赖人类数据标注的大模型训练框架,它来了!
由腾讯AI Lab与美国圣路易斯华盛顿大学联合开发的新框架“R-Zero”,成功展示出大语言模型(LLM)如何靠自己训练自己,不再需要人类提供任务或答案。
论文地址: https://www.arxiv.org/pdf/2508.05004
这个突破的核心,是彻底摆脱人类标注数据的依赖,靠模型之间的博弈,自动生成、筛选和吸收新的训练内容。
他们用强化学习的方法,让两个AI模型互相挑战、不断进化,从零开始构建出一个高质量的训练体系。
R-Zero采用的结构,是将一个基础模型一分为二,分别扮演“挑战者”和“解答者”两个角色,分别训练,但共同进化。
挑战者的目标是设计刚好够难的问题,逼迫解答者必须进步;而解答者在解决这些问题中获得奖励和提升。
“不是找到答案难,而是提出好问题难。”显然,真正稀缺的是“好老师”,而不是“好学生”。
R-Zero就是通过自动化产生“老师”,让模型不断面对新的、更难的考题,从而不断突破原有水平。
01 R-Zero的实验结果
R-Zero的实验效果远超预期,尤其是在推理能力方面,不同规模的开源大模型均出现明显性能跃升。
腾讯测试了多个模型家族,包括Qwen3系列和OctoThinker,在基础模型上仅通过R-Zero训练,就让推理能力显著提升。
例如,Qwen3-4B-Base在数学推理测试中得分平均提升+6.49分;Qwen3-8B-Base在三轮训练后得分也提升了+5.51分。
更重要的是,这种通过数学任务训练得到的推理能力,可以成功迁移到通用推理任务上。
在MMLU-Pro和SuperGPQA等通用领域测试中,Qwen3-4B-Base同样表现出+7.54分的跃升,说明R-Zero训练的不只是技巧,而是底层能力。
甚至在后续再用传统标注数据微调时,经过R-Zero预训练的模型也能表现得更好。
对企业而言,R-Zero的“从零数据”方式尤其具有吸引力,因为许多垂直行业领域,压根没有高质量的大规模数据集可供使用。
腾讯的这项研究直接绕开了数据收集、人工标注这些最昂贵、最耗时的流程,变相打破了AI发展的最大天花板:人类知识和数据的边界。
02 但问题同样存在
尽管R-Zero在性能上令人振奋,但它也暴露出自我进化AI的核心风险:数据质量的失控。
研究者发现,随着挑战者不断提出更复杂的问题,解答者给出的“多数票答案”正确率开始下降。
第一轮训练中,自动生成数据的准确率为79%,而到第三轮下降至63%。
相比之下,一个“强大而理想”的大模型如GPT-4,可以保持更高的正确率,这种落差说明自我进化的过程可能存在精度塌陷的风险。这是这个新范式面临的最大瓶颈。
目前论文成果只是概念验证,要真正做到持续稳定进化,不出现性能平台期,是接下来整个研究社区要攻克的难关。
此外,R-Zero目前仅适用于“答案可验证”的任务,如数学推理、科学问答等,其优势来自于能够清晰判断“对”与“错”。
那在没有“标准答案”的领域怎么办?比如营销文案、情感写作、摘要生成?
腾讯提出了未来的一种可能方向:引入第三个模型角色“验证者”或“评论员”。
验证者将不再判断对错,而是评价内容的质量,从多个维度给予评分。
如此一来,挑战者继续生成题目,解答者负责作答,而验证者则提供反馈。三方协同进化,形成更复杂、更全面的智能结构。
或许会推动AI从“逻辑能力”迈向“主观判断”,不仅懂计算,更懂人类世界的模糊与语境。
注:头图AI生成
作者长期关注 AI 产业与学术,欢迎对这些方向感兴趣的朋友添加微信 Q1yezi,共同交流行业动态与技术趋势!
GPU 训练特惠!
H100/H200 GPU算力按秒计费,平均节省开支30%以上!
点「赞」的人都变好看了哦!
相关文章
您好:这款游戏是可以开挂的,软件加微信【添加图中微信】确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到其他人...
2025-09-04 0
追觅厨电正在打破传统厨电“外观单一”、“不易清理”的局限。9月4日,在追觅科技上海⌈敢梦敢为⌋2025全场景新品发布会上,以Z6000全线产品为代表的...
2025-09-04 0
您好:这款游戏是可以开挂的,软件加微信【添加图中微信】确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到其他人...
2025-09-04 0
9月17日–21日,北京中关村创业大街将彻底沸腾。这不是一个普通的 AI 行业大会,而是一场真正意义上的“嘉年华”——主街区变成舞台,咖啡馆、书店、茶...
2025-09-04 0
曾因代言翻车、综艺“耍大牌”和强捧女儿,63岁的张凯丽一度跌落神坛,国民媳妇形象摇摇欲坠。然而,就在无数质疑声中,一个意想不到的瞬间——九三阅兵观礼台...
2025-09-04 0
发表评论