2024年全国两会上,习近平总书记回忆起10年前北京开亚太经合组织(APEC)会的一幕:“当时有人问,这是‘APEC蓝’,能持久吗?我回答他们,这并不...
2025-08-17 0
随着服务机器人、自动驾驶和 AR/VR 产业的加速发展,AI 对三维空间的精准感知与多步推理需求愈发迫切。然而,现有 3D 视觉-语言模型普遍受制于空间理解不足和推理能力薄弱,难以满足复杂任务的要求。本文提出 3D-R1,一个融合高效三维感知与长链逻辑推理的通用框架,通过构建大规模链式推理数据集 Scene-30K、引入 GRPO 强化学习策略以及动态视角选择机制,在七项公开基准上全面刷新性能记录,显著提升三维智能体的理解与决策能力,为下一代 3D-AI 的发展奠定技术基础。
随着服务机器人、自动驾驶及 AR/VR 的产业化提速,AI 对三维空间的精准感知与推理需求日益迫切。然而现有 3D 视觉‑语言模型(3D VLM)普遍受制于两类瓶颈:
空间理解不足——大多依赖固定视角或简单全景拼接,遮挡与关键结构难以被正确解析;
推理能力薄弱——缺乏具备长链逻辑的数据与奖励信号,模型往往只能给出“描述式”回答,而无法完成多步推断或任务规划。
直面上述难题,本文工作提出 3D‑R1:一个兼具高效三维感知与多步逻辑推理能力的通用 3D VLM。其核心目标是让模型 “既看得清,又想得深”,为下一代三维智能体奠定统一技术底座。
3D‑R1 从 数据、训练范式与视角采样 三个维度进行系统性革新。
多源融合:在 ScanQA、SceneVerse 等公开点云/mesh 基础上,合成 3 万条带 Chain‑of‑Thought(CoT)标注的样本;
自动生成 + 规则过滤:调用 Gemini 2.5 Pro 生成描述‑推理‑答案三段式标签,再以格式完整性、逻辑一致性与答案正确性多重规则过滤;
覆盖更丰富任务:问答、定位、规划、对话等多任务标签一次到位,为“冷启动”提供高密度推理信号。
通过逐句对齐的跨模态对比学习,让模型先对 3D 点云、深度图与语言编码建立基础对齐。
在冷启动权重上,设计 Group Relative Policy Optimization (GRPO) 策略,引入三类奖励:
奖励类型 | 目的 | 计算方式 |
---|---|---|
格式奖励 | 保证输出结构规范 | 若含 & ` ` 即为 1. |
感知奖励 | 提升空间定位精度 | 预测框与GT的IoU |
语义奖励 | 强化答复语义贴合 | CLIP余弦相似度 |
多信号合成使策略梯度更稳定,显著提升多步推理正确率。
“看对位置比什么都重要。”
在三维场景中,不同视角信息差异巨大。3D‑R1 通过“自动选 6 张最佳视图”保证信息闭环:
文本相关性(Text‑to‑3D):视图是否覆盖提问对象;
空间补充性(Image‑to‑3D):互补性得分高可避免“盲区”;
多模态一致性(CLIP 相似度):图文对齐检验。
三项指标经可学习权重线性融合,端到端训练即可获得任务依赖的自适应视角策略。
3D‑QA:ScanQA Val/Test
密集描述:ScanRefer、Nr3D
多轮对话与空间推理:3D‑Dialogue、3D‑Reasoning
动作规划:3D‑Planning
视觉定位:3D Visual Grounding
任务 | 评价指标 | 现 SotA | 3D‑R1 | 提升 |
---|---|---|---|---|
ScanQA Val | Acc‑@1 | 75.3 | 78.9 | +3.6 |
ScanRefer | mAP@0.5IoU | 59.0 | 63.2 | +4.2 |
Nr3D | Acc@0.5IoU | 48.7 | 52.4 | +3.7 |
3D‑Dialogue | BLEU‑4 | 18.1 | 21.5 | +3.4 |
3D‑Reasoning | ChainAcc | 42.6 | 50.8 | +8.2 |
3D‑Planning | Success Rate | 55.0 | 61.3 | +6.3 |
在 7 项典型任务中,3D‑R1 全部刷新当前最佳,尤其在链式推理场景显现出 > 8 pp 的领先幅度。
提出 3D‑R1 通用框架 —— 首次将大规模 CoT 数据、动态视角与 RL‑in‑the‑loop 训练整合于统一 3D VLM;
Scene‑30 K 数据集 —— 用自动化管线生成高质量链式推理标注,为 3D 场景推理提供“基建”;
GRPO 奖励设计 —— 将格式、几何与语义三维度显式融入策略优化,显著提升复杂推理稳定性;
动态视角采样 —— 任务感知的多指标融合,解决 3D 感知“看不全”痛点;
多任务 SOTA —— 在 7 个公开基准上一致领先,验证通用性与可迁移性。
实时性:当前采样‑编码‑推理流水仍有 > 900 ms 延迟,难以直接用于硬实时控制;
异构传感:仅支持点云 & 深度图,尚未融合 IMU、语义 SLAM 等多源信息;
任务泛化:迁移到户外大尺度场景与具身操作任务仍需更多数据与安全约束。
为此,我们计划:
端到端加速 —— 采用稀疏注意力与轻量投影网络,将延迟降至 300 ms 以内;
多模态融合 —— 引入激光‑视觉‑惯性三模态自监督框架,增强跨场景鲁棒性;
具身决策耦合 —— 在家用机器人和自动驾驶仿真平台部署 3D‑R1,联合强化学习完成感知‑决策‑控制一体化调优;
开源生态 —— 公布模型权重、数据与评测脚本,促进社区复现与多任务共建。
3D‑R1 的发布不仅是一个模型迭代,更揭示了三维场景理解从“看见”到“会想”的跨越式进步。 通过数据、算法与系统三位一体的设计,3D‑R1 为构建真正“空间智能”奠定了方法论基石,也为机器人、元宇宙、智能制造等垂直领域提供了可落地的技术通路。未来,我们期待与学术及产业伙伴协同,将通用 3D‑AI 推向更复杂、更实时、更安全的实际应用场景,共同迎接三维智能时代的到来。
相关文章
2024年全国两会上,习近平总书记回忆起10年前北京开亚太经合组织(APEC)会的一幕:“当时有人问,这是‘APEC蓝’,能持久吗?我回答他们,这并不...
2025-08-17 0
8月17日,记者来到机器人运动会运动员休息区探班。搏击机器人正在训练中,看到镜头直接开始加戏,“挑衅”记者,复刻“你过来呀”名场面。...
2025-08-17 0
鞋子为什么会被当成信号?在青藏高原的早晨,风一吹,门口那双破旧的藏靴便静静地告诉人什么安排。这里的生活规矩并不靠大声宣布,就靠这些日积月累的“鞋子机关...
2025-08-17 1
近期国际局势的风向变得有点儿快!普京一改往日强硬的态度,答应了与特朗普接下来的见面,而作为“当事人”的泽连斯基却被晾在一边。不仅普京变了,特朗普对印度...
2025-08-17 0
来源:环球网 【环球网报道 记者 赵建东】《财富》杂志8月16日刊文称,2024年苹果、微软、亚马逊等多家美国科技巨头CEO安保支出超过4500万美元...
2025-08-17 0
金融界2025年8月15日消息,国家知识产权局信息显示,中车唐山机车车辆有限公司申请一项名为“基于动车组的通信系统及通信方法”的专利,公开号CN120...
2025-08-17 1
金融界2025年8月16日消息,国家知识产权局信息显示,中国电信股份有限公司申请一项名为“天线安装位置的确定方法、装置及电子设备”的专利,公开号CN1...
2025-08-17 1
在人工智能大模型加速向产业渗透的关键阶段,大兴经开区重点企业—智谱科技近日发布新一代旗舰模型GLM-4.5系列。该模型专为智能体应用打造,首次实现推理...
2025-08-17 0
发表评论