智元机器人推出行业首个机器人世界模型开源平台Genie Envisioner

抖音推荐 2025年08月18日 14:19 1 admin

🤖 由文心大模型生成的文章摘要

前文介绍了智元机器人推出的机器人

在机器人技术领域不断追求创新与突破的征程中，智元机器人于近日正式宣布推出行业首个机器人世界模型开源平台——Genie Envisioner（GE），这一具有里程碑意义的举措为机器人智能发展开辟了崭新的道路。

传统机器人学习系统大多遵循“数据—训练—评估”相互独立的流水线模式，各个环节之间缺乏紧密协作，需要专门的基础设施与针对特定任务的复杂调优。这种碎片化架构不仅极大地增加了开发难度，延长了研发周期，还严重制约了系统的可扩展性，阻碍了机器人在复杂多变环境中的高效应用。

而Genie Envisioner平台的出现，彻底打破了这一传统桎梏。它创新性地构建起以统一视频生成世界模型为核心的闭环架构，首次成功将未来帧预测、策略学习与仿真评估三大关键功能深度整合，让机器人得以在同一世界模型中顺畅无阻地完成从敏锐感知环境信息，到深入思考决策，再到精准执行动作的端到端全流程推理与操作。

为打造这一强大的平台，智元机器人团队投入了大量的精力与资源，精心收集整理了约3000小时的真实机器人操控视频数据。这些珍贵的数据成为了GE平台坚实的基石，助力平台建立起从语言指令到视觉空间的直接映射桥梁，完整且精准地保留了机器人在与环境交互过程中所产生的全部时空信息，为机器人能够精准理解任务指令、灵活应对复杂场景提供了有力支撑。

GE平台主要由三大核心组件构成，它们紧密协作，共同铸就了平台强大的功能。GE-Base作为整个平台的核心基础，采用自回归视频生成框架，将输出巧妙分割为离散的视频块，每个视频块包含N帧。该组件具备多视角生成能力与稀疏记忆机制两大关键创新点，通过同时处理来自头部相机和双臂腕部相机的三路视角输入，能够完美保持空间一致性，全方位捕捉完整的操控场景；稀疏记忆机制则通过随机采样历史帧，显著增强了长时序推理能力，使得模型在处理长达数分钟的操控任务时，依然能够有条不紊地保持时序连贯性。

GE-Base的训练采用两阶段策略，首先在3-30Hz的多分辨率采样下进行时序适应训练，使其对不同运动速度具备强大的鲁棒性；随后在5Hz固定采样率下进行策略对齐微调，与下游动作建模的时序抽象完美契合。整个训练过程基于AgiBot-World-Beta数据集的约3000小时、超100万条真机数据，借助32块A100GPU经过约10天的艰苦运算才得以完成。