首页 抖音快讯文章正文

元戎启行发布VLA模型,起点是让AI学会害怕?|附CEO对话实录

抖音快讯 2025年08月28日 01:57 1 admin

元戎启行发布VLA模型,起点是让AI学会害怕?|附CEO对话实录

VLA,这是 2025 年最热的辅助驾驶技术路线之一,理想 i8 已经量产,小鹏 P7 紧追不舍,而华为却说我们不用这个技术。

就在昨天,VLA 阵营又一位新玩家来了,元戎启行发布全新一代辅助驾驶平台——DeepRoute IO 2.0,并搭载自研的 VLA(Vision-Language-Action)模型。

元戎启行 CEO 周光透露,开发 VLA 模型的起点是让 AI 学会害怕。传感器看不见,并不代表没有危险,这也是在之前端到端时代辅助驾驶的局限。

经常使用辅助驾驶的司机一定有这样的体验,在驾驶员觉得危险的场景(例如遮挡、转弯、车道合并)之下,辅助驾驶反而信心满满,快速通过。更严重的问题是,这样的表现却通常被驾驶员认为辅助驾驶的效率高于人类,造成过度信赖。随着搭载辅助驾驶车型的不断增多,任何问题都有可能被放大。

究其原因,AI 没有学会害怕。

元戎启行发布VLA模型,起点是让AI学会害怕?|附CEO对话实录

元戎启行的 VLA 模型就有四大功能,分别是空间语义理解、异形障碍物识别、文字类引导牌理解、记忆语音控车。

元戎启行发布VLA模型,起点是让AI学会害怕?|附CEO对话实录

其中,空间语义理解就成为了最核心的功能。在辅助驾驶过程中,车辆对前视摄像头的画面进行语义理解(Vision-Language),当车辆行驶到遮挡、复杂路口、桥洞等视野盲区时,系统可以进行预防性判断,最终决策降低车速(Action)。

异形障碍物识别使系统能够识别并灵活应对如施工锥桶、超载小货车等非结构化障碍;文字类引导牌识别让系统看懂路标,解析潮汐车道、公交专用道等文字信息;记忆语音控车功能支持自然语言指令交互,并逐步学习用户偏好,实现个性化与拟人化的驾驶体验。

元戎启行发布VLA模型,起点是让AI学会害怕?|附CEO对话实录

周光透露,DeepRoute IO 2.0 平台适配「多模态+多芯片+多车型」,支持激光雷达与纯视觉版本。目前,基于 DeepRoute IO 2.0 平台,元戎启行已达成 5 个车型的定点合作项目,首批量产车即将进入市场。

对话周光:VLA 最大难点在思维链和长时序推理

一场简短的发布后,元戎启行 CEO 周光接受了 42 号车库等多家媒体的共同采访。

元戎启行发布VLA模型,起点是让AI学会害怕?|附CEO对话实录

聚焦元戎启行 VLA 模型的技术细节,周光表示,基于英伟达 Thor 芯片,VLA 能够以每秒几 Hz 的水平运行,可以做到实时响应。

在 VLA 研发过程中,最大的难点是思维链(Chain of Thought, CoT)和长时序推理。周光认为:「这才是 VLA 真正的核心能力。思维链是这类架构的基本要求。没有它,就不能算是 VLA。」

最近,业内针辅助驾驶究竟要不要激光雷达,VLA 路线是不是辅助驾驶更优的方案展开了相当多的讨论。而发起这两个讨论的,一个是马斯克,另一个是华为。

周光认为,激光雷达目前对通用障碍物识别仍有重要作用。但随着大模型技术的发展,视觉会在感知中扮演越来越重要的角色,大模型有望逐步解决现在依赖激光雷达的部分任务。

那么辅助驾驶真的需要 VLA 吗?周光认为,真正要实现思维链(COT)就需要走 VLA 方向,除非算力不足,可能会选择别的路径。

在一小时的深度交流中,周光谈到了元戎启行 VLA 模型的技术细节、VLA 训练,并针对行业热点问题进行了一一回应,我们将对话全程进行了整理,在不改变愿意的前提下略有删减,供大家参考。

量产 VLA 的其他技术细节

Q:量产 VLA 模型的目标运行帧率是多少?

A:目前是每秒几赫兹的水平,具体数值不便透露,但肯定能做到实时响应,不会出现几秒一帧的情况。

Q:VLA 模型针对不同芯片平台,在算法和训练上做了哪些优化?技术架构是否有前瞻性布局?

A:VLA 模型的研发和训练本身与芯片无关,训练完成后才会进行部署适配。不同芯片平台主要影响的是工程部署的工作量,并不会反过来改变训练方式或模型架构。

Q:元戎启行支持多种芯片平台,是否有具体范围?随着国产芯片(如地平线)和车企自研芯片的发展,这些是否都能适配?车企能指定芯片吗?

A:芯片适配有一定要求,比如基础算力、带宽等。模型训练完成后会经过蒸馏和量化,适配需要满足基本条件。合作中车厂可以提出芯片需求,适配成本(时间、资金、数据)都是可协商的。我们目前以某款芯片为起点,未来会支持更多芯片,并不局限于一家。

Q:目前行业明确走 VLA 路线的似乎只有元戎启行和理想。也有观点认为,大语言模型虽强于文本推理,但在空间感知上并非强项。您如何看待这种说法?

A:更准确地说,VLA 本质是「基于 GPT 的端到端模型」。目前坚持投入大算力的公司,包括小鹏,其实都在朝这个方向走。比如特斯拉最新芯片算力达 2,500 TOPS,CNN 模型根本不需要如此大规模的算力,只有 GPT 架构才需要大参数和大算力支持。CNN 模型参数量有限,而 GPT 架构天然适合扩展,这才是未来方向。

Q:关于语音控车,您提到它属于基础功能。那么在 VLA 模型中,真正难的是什么?

A:最难的是思维链(Chain of Thought, CoT)和长时序推理。这才是 VLA 真正的核心能力。

Q:是否可通过思维链的表现来评价 VLA 模型的好坏?

A:思维链是这类架构的基本要求。没有它,就不能算是 VLA。目前行业还没有像 NLP 那样统一的评测基准,但未来可能会建立基于物理场景的专用 Benchmark。

Q:从车机界面能否直观判断 VLA 模型的优劣?

A:现阶段我们还是聚焦于解决 0 到 1 的问题。像特斯拉的交互已经做得很成熟,但我们需要先确保核心能力落地,再优化用户体验。

Q:车端实际能跑多大的模型?

A:参数量暂不方便透露。不过受车规算力和功耗限制,即便是上车的 GPT 模型,也仍属于“小模型”范畴。

Q:VLA 模型是否也会出现幻觉?如何降低这类风险?

A:预训练阶段确实可能产生幻觉,但通过后训练对齐技术,已经能极大抑制这一现象。现在主流大模型(如豆包、千问)幻觉现象已经很少,这方面已有较好的解决方案。

Q:随着 VLA、VLM 等技术推进,辅助驾驶能力基线普遍提升,各家方案是否会出现趋同?元戎启行如何保持自身特色?

A:端到端技术确实存在趋同,差别更多体现在推进节奏上。元戎在防御性驾驶等方面布局较早,半年前就已强调这一方向。技术判断的准确性是关键,尤其在 VLA 这种广度较大的领域。

Q:VLA 模型帧率目前低于某些端到端方案(10 - 20 帧),这是现阶段的限制吗?是否有补偿方式?

A:帧率影响本质是延迟问题。从 100 毫秒降至 50 毫秒已有明显收益,VLA 初期帧率稍低是正常现象。帧率并非越高越好,预判能力增强也能弥补帧率限制。

Q:如果持续提升 VLA 的推理(Reasoning)能力,未来可能带来哪些突破?

A:VLA 目前还未完全实现思维链(COT),这是关键差距。长远来看,语言和推理能力是实现完全无人化自动驾驶的核心。比如遇到「左转不受灯控」这种临时标识,依赖地图更新是不够的,第一次遇到就需实时理解。VLA 在这条路上任重道远,需要更多技术沉淀。特斯拉之所以投入十倍算力和参数,正是因为 GPT 架构是明确方向,CNN 无法支撑这种扩展。

Q:请问 VLA 模型系统最低可适配什么价位的车型?哪些车型能够应用?

A:目前 15 万元以上的车型都可以适配,10 万元级别的车型通过优化也有机会搭载。端到端方案成本更低,而 VLA 模型目前更依赖算力支持。传感器方面,11 个摄像头正成为主流配置,像特斯拉就坚持纯视觉路线。行业整体在提升算力,下一代芯片将达到 5,000 TOPS,甚至 10,000 TOPS 级别也不远了。

Q:VLA 模型相比端到端方案会贵多少?成本差距大吗?

A:主要成本差异在芯片,其余部分基本一致。芯片成本取决于制程工艺,目前千T级芯片算力时代已经到来,例如特斯拉 2,500 TOPS 芯片,双芯片即可实现 5,000 TOPS。

Q:上次车展听您提到 VLA 模型不止用于车,还会拓展至机器人。能否多分享一些?是人形机器人还是无人驾驶?是否有相关合作?车用和机器人用的 VLA 模型是同一套吗?

A:是的,VLA 模型本身是通用架构,不再为特定场景定制。正如我们年初发布的 RoadAGI 策略所说,未来这一技术可泛化至多种移动场景——包括小区、电梯、办公室等室内外环境。现在的机器人很多还依赖遥控或巡线技术,而我们希望能实现真正自主、通用的移动能力。

Q:您给当前版本打几分(满分10分)?最大挑战是什么?

A:我个人打 6 分,刚及格。VLA 模型仍处于早期,相当于「幼年期」,但上限远高于端到端方案。新一代架构需要新一代芯片支持,这不是 CNN 时代可比的。

Q:非 VLA 架构也可实现防御性驾驶,VLA 是必须的吗?

A:统计方法能部分实现防御策略,但复杂场景需真正推理能力。VLA 因具备 CoT 和语言推理,能更彻底解决这些问题。BEV 在空间理解上存在天然局限。

VLA 是如何训练的?

Q:元戎启行 VLA 的基础模型是千问吗?

A:我们会采用多种模型进行蒸馏,千问是开源模型中比较优秀的,我们也尝试过基于千问以及自研蒸馏的方案。所以并不完全依赖于某一特定模型,也有来自千问的技术成分,但不完全一致。

Q:您没有提到云端世界模型和仿真数据。目前行业普遍使用仿真路径,元戎如何应对推理卡资源问题?

A:VLA 与第一代端到端最根本的区别是模型架构变了——从 CNN 转向 GPT。训练方法比如是否引入 RL,只是策略问题。CNN 架构本身无法实现类似人类的推理和泛化能力。

Q:训练数据来源是什么?是否来自自有测试车队和长城?

A:数据来源是多方面的:包括自有测试车队、量产车数据,以及生成数据。要实现 GPT 架构的预训练,必须依赖大规模、多样化数据集,这是 CNN 模型无法胜任的。

Q:关于 VLA 模型对训练资源的需求,有厂商表示需要数万张卡。元戎启行如何看待这种巨大的资源消耗?是否会带来成本压力?另外,为什么现在行业都在强调强化学习和 AI 训练?

A:强化学习只是模型训练的一种手段,属于「后训练」阶段的一部分。如今行业已进入后训练时代,但这本身并不值得过度强调——就像 GPT 或 Waymo 也不会单独强调强化学习。元戎在技术选型上一直较为精准,VLA 是一个全新领域,方向选择很多,如果有清晰的技术判断,资源消耗完全可以更高效。事实上,辅助驾驶场景的 GPT 模型规模相对可控,比如 7B 模型并不需要极端庞大的算力。

Q:仿真测试方面,有厂商大幅减少实车测试、增加仿真里程,这是行业趋势吗?

A:我们更专注于自身技术路线。仿真是数据来源的一种,关键不在于是真实还是仿真,而在于数据质量。高质量数据集才是模型优化的核心。

Q:长期看仿真数据在训练中的占比会达到多少?仿真数据生成能力会成为壁垒吗?

A:仿真需基于真实数据,否则无法有效模拟。现实数据仍是主体,仿真作为补充。从预训练到后训练阶段,仿真比例会逐渐提升。行业应关注大模型整体发展,避免局限在自动驾驶领域。技术本质是相通的,就像人脑神经元结构并无太大差异。

对行业热点的看法

Q:最近马斯克提到「激光雷达会让自动驾驶越来越不安全」,您怎么看?

A:激光雷达目前对通用障碍物识别仍有重要作用,正如之前提到的,大模型的知识库能力可以识别很多未知障碍物。我相信随着大模型技术的发展,视觉会在感知中扮演越来越重要的角色。短期来看,激光雷达受限于技术发展和数据集的成熟度,仍有其价值;长期来看,大模型有望逐步解决现在依赖激光雷达的部分任务。

Q:如何看待其他车企推出 VLA 模型?比如小鹏。元戎的差异化优势在哪里?

A:小鹏的 VLA 进展也不错,他们基于千问模型做出了实打实的成果。VLA 涵盖面很广,不像端到端那样直接,更需要精准的技术判断和持续积累。

Q:从规则算法、端到端 1.0 到 VLA 模型,如果现在车企或供应商想自研辅助驾驶系统,能否可以直接切入 VLA?是否需要完整经历之前的研发阶段?您研发端到端时是否预见到其上限?

A:每个阶段都无法跳过,从有图、无图、端到端到 VLA 模型,整个发展过程必不可少,最多只能压缩某些阶段的时间,但不可能完全绕过。至于 VLA 模型的上限,目前其下限已经超过端到端方案的上限。

Q:过去几年,国内外厂商推出的智驾芯片对于 Transformer 模型的支持都不是很好。既然 VLA 是一个 GPT based E2E 架构,这是不是意味着:以后各家厂商在研发高阶智能辅助驾驶芯片时,除了做到数千 TOPS 的算力,还必须将对 Transformer 模型的原生、高效支持作为核心设计指标?

A:确实如此。早期芯片主要针对 CNN 设计,未来一定会加强对 Transformer 的支持,尤其是在 FP4、FP6 等精度的优化上。

Q:华为不走 VLA 路线,您怎么看?

A:若算力不足,确实可能选择其他路径。但真正要实现思维链(CoT)仍需 VLA 方向。

Q:作为行业参与者,如何共同将智驾蛋糕做大?除技术外还需哪些助力?

A:宣传需理性,避免过度承诺,尤其在安全方面。技术发展需时间,需正确引导用户预期。监管与行业自律也很重要。

Q:元戎是否会参与 L4 竞争?目前进展如何?

A:传统自动驾驶等级划分已过时,真正的无人驾驶需推理能力,纯规则系统无法应对「红灯可左转」这类问题。


发表评论

泰日号Copyright Your WebSite.Some Rights Reserved. 网站地图 备案号:川ICP备66666666号 Z-BlogPHP强力驱动