首页 百科大全文章正文

Ai2发布开源AI模型,让机器人在3D空间"规划"动作

百科大全 2025年08月13日 21:17 1 admin

Ai2发布开源AI模型,让机器人在3D空间"规划"动作

西雅图人工智能研究机构Ai2(艾伦人工智能研究所)今日宣布发布MolmoAct 7B,这是一个突破性的开源具身AI模型,通过让机器人在执行动作前进行"思考",为机器人技术带来了智能。

空间推理对AI模型来说并不新鲜,这些模型能够通过可视化图像或视频来推理世界,然后得出结论。例如,用户可以上传图像或视频到OpenAI的ChatGPT,询问如何组装桌子的问题并得到答案。同样,机器人AI基础模型可以被指示拿起杯子并放到水槽里。

"具身AI需要一个优先考虑推理、透明性和开放性的新基础,"首席执行官Ali Farhadi表示。"通过MolmoAct,我们不仅仅是发布一个模型;我们正在为AI的新时代奠定基础,将强大AI模型的智能带入物理世界。"

大多数机器人AI模型通过推理提供给它们的语言来运行,分解自然语言句子——比如上面的例子"拿起柜台上的杯子放到水槽里"——并将其转化为动作。它们通过结合从摄像头和其他传感器获得的知识以及命令来做到这一点。

Ai2表示,MolmoAct是该公司称为动作推理模型(ARM)的新类别AI模型中的首个,它解释高级自然语言,然后推理出一系列物理动作计划,以在现实世界中执行这些动作。与市场上当前作为视觉语言动作基础模型运行的机器人模型不同,ARM将指令分解为一系列航点和动作,这些航点和动作考虑了模型能够看到的内容。

"一旦它看到世界,它就会将整个世界提升到3D中,然后绘制轨迹来定义其手臂将如何在该空间中移动,"Ai2计算机视觉团队负责人Ranjay Krishna在接受采访时表示。"所以,它为未来做规划。在完成规划后,它才开始采取行动并移动关节。"

ARM和VLA模型都充当机器人的"大脑",包括AI模型机器人初创公司Physical Intelligence的pi-zero、英伟达公司用于人形机器人的GR00T N1、学术研究人员实验常用的70亿参数开源模型OpenVLA,以及930亿参数的Octo模型。参数指的是模型用来做决策和预测的内部变量数量。MolmoAct包含70亿个参数,因此名称中有7B。

该公司使用256个英伟达H100图形处理单元集群上的1800万个样本来训练模型,预训练大约在一天内完成。微调使用64个H100大约需要2小时。相比之下,英伟达的GR00T-N2-2B使用1024个H100在6亿个样本上进行训练,而Physical Intelligence使用9亿个样本和未披露数量的芯片训练pi-zero。

"很多这些公司给你这些技术报告,但这些技术报告看起来是这样的:它们中间有一个大黑盒,上面写着'Transformer',对吧?除此之外,你真的不知道发生了什么,"Krishna说。

与市场上许多当前模型不同,MolmoAct 7B是在大约12000个来自真实环境(如厨房和卧室)的"机器人事件"精选开放数据集上训练的。这些演示用于映射目标导向的动作——比如整理枕头和收拾洗衣。

Krishna解释说,MolmoAct通过完全开放克服了这个行业透明度挑战,提供其代码、权重和评估,从而解决了"黑盒问题"。它既在开放数据上训练,其内部工作原理也是透明和公开可用的。

为了增加更多控制,用户可以在执行前预览模型的计划动作,其预期运动轨迹叠加在摄像头图像上。这些计划可以使用自然语言或在触摸屏上绘制修正来修改。

这为开发人员或机器人技术人员在家庭、医院和仓库等不同环境中控制机器人提供了细粒度方法。

Ai2表示,该公司使用SimPLER评估了MolmoAct的预训练能力,这是一个使用一组模拟测试环境来测试常见真实世界机器人设置的基准。使用该基准,该模型实现了72.1%的最先进任务成功率,击败了来自Physical Intelligence、谷歌、微软和英伟达的模型。

"MolmoAct是我们进入这个领域的第一次尝试,表明推理模型是训练这些大规模机器人基础模型的正确方式,"Krishna说。"我们的使命是实现真实世界的应用,所以任何人都可以下载我们的模型,然后为他们的任何目的进行微调,或者尝试开箱即用。"

Q&A

Q1:MolmoAct 7B是什么?它有什么特别之处?

A:MolmoAct 7B是由Ai2发布的突破性开源具身AI模型,属于动作推理模型(ARM)新类别。它的特别之处在于能够解释高级自然语言,然后推理出物理动作计划,在执行前先进行"思考"和3D空间规划,而不是直接执行动作。

Q2:MolmoAct与其他机器人AI模型有什么区别?

A:与传统的视觉语言动作模型不同,MolmoAct会将整个世界提升到3D空间,绘制轨迹定义手臂移动路径,为未来做规划后才开始行动。它还完全开源,提供代码、权重和评估,解决了行业中的"黑盒问题",用户还可以预览和修改机器人的计划动作。

Q3:MolmoAct的训练数据和性能如何?

A:该模型使用约12000个来自真实环境的"机器人事件"数据集训练,在256个英伟达H100 GPU上用1800万样本预训练约一天完成。在SimPLER基准测试中,它实现了72.1%的任务成功率,超越了Physical Intelligence、谷歌、微软和英伟达的模型。

发表评论

泰日号Copyright Your WebSite.Some Rights Reserved. 网站地图 备案号:川ICP备66666666号 Z-BlogPHP强力驱动