首页 游戏天地文章正文

眼睛如何欺骗大脑?马斯克谈自动驾驶技术

游戏天地 2025年08月06日 08:08 1 admin

埃隆·马斯克是特斯拉创始人兼首席执行官,SpaceX首席执行官兼首席技术官,他曾作客美国科技博主莱克斯・弗里德曼的播客节目,展开了一场有关自动驾驶技术的深度讨论。

眼睛如何欺骗大脑?马斯克谈自动驾驶技术

莱克斯・弗里德曼: 我在麻省理工学院待过,知道计算机视觉的难度有多大。当我第一次驾驶特斯拉时,自然会产生怀疑。我当时觉得这不可能,上车时就想:“这车肯定没法长时间保持在车道内,也无法带来舒适的体验。” 事实证明我错了。

埃隆・马斯克: 我们有很多非常有才华的人。特斯拉自动驾驶仪 AI 团队非常优秀,就像世界上最聪明的一群人。所以,我们肯定能搞定。

我原本就觉得自动驾驶问题很难,结果发现它比我想象的还要难。要解决自动驾驶问题,必须重现人类的驾驶方式 —— 人类利用眼睛这一光学感官和生物神经网络来驾驶。道路系统的设计本质上就是基于这种无源光学和生物神经网络的,所以要实现完全自动驾驶,我们必须以数字形式重建这一过程,也就是用硅基的先进神经网络。这显然是解决自动驾驶问题的唯一办法,我认为没有其他途径。

莱克斯・弗里德曼:但问题是,你必须把人类驾驶的哪些方面编码到机器中,对吗?首先要解决感知问题,比如检测 —— 驾驶中的感知问题到底是什么?我们开车时到底在看什么?作为人类,我们开车时的行为会影响周围环境,改变其他人的行为方式,而大多数自动驾驶汽车通常只是对场景做出反应,而不是主动影响场景。那你觉得这个复杂问题中,最难的部分是什么?


埃隆・马斯克:是需要大量优秀的软件人才和无数行智能代码,当然,还要创建一个精确的向量空间。从图像空间开始 —— 光子进入相机,产生巨大的比特流,然后你必须有效地压缩这些对应于相机传感器接收光子的比特流,并将其转换为向量空间。

我所说的向量空间,指的是包含汽车、人类、车道线、弯道、交通信号灯等元素的空间。一旦有了精确的向量空间,控制问题就类似于视频游戏,比如《侠盗猎车手》或《赛博朋克》。当然,控制问题并非微不足道,但也不是无法克服的。最难的是创建精确的向量空间。


你的大脑在进行大量处理,为你呈现清晰的图像。比如我们环顾四周时,眼角能看到颜色,但实际上眼睛的周边视觉中视锥细胞很少,大脑会为周边视觉 “填充” 颜色。你可能没意识到,眼睛里有血管,还有盲点,但你能看到盲点吗?

不能,因为大脑会填补盲点处缺失的部分。你可以做个实验:盯着一个点看,再看向另一个点,如果那个点在你的盲点里,大脑就会自动填补缺失的部分。

莱克斯・弗里德曼:太酷了,周边视觉真的很神奇。

埃隆・马斯克:即使接收了所有视觉信号,大脑也总是试图尽可能 “忘记” 一切。人类的记忆可能是大脑最薄弱的部分,因为记忆对大脑来说成本很高且非常有限,所以大脑会尽可能提炼所见信息,将其简化为最少的内容。


你上次向左、向右、向后看,甚至向前斜看,环顾四周时,大脑在试图提取相关向量 —— 基本上是具有位置和运动状态的物体,然后将其精简为驾驶所需的最少信息。

莱克斯・弗里德曼:大脑似乎能将这些信息进一步压缩成概念,超越向量空间,进入概念空间。。

埃隆・马斯克:你需要先建立向量空间,然后对这些向量空间进行实际预测。比如开车经过一辆公交车,看到有人在车里;或者经过公交车前,看到有人在过马路;再比如有辆大卡车挡住了路,走到卡车前时看到几个孩子正要过马路,之后就看不到孩子们了,但你应该知道他们可能会穿过卡车过马路,即使你看不到他们。所以系统必须有记忆,需要记住那里有孩子,并预测他们的行动。

在遮挡情况下,计算机视觉要跟踪被遮挡物体 —— 比如物体走到树后又出现,这在学术文献中都是非常困难的问题。

汽车神经网络的一个重要进化方向是跨越时间和空间的记忆。你不能随意设定记忆时长,长时间记住太多内容会消耗内存,而且有些信息记得太久会过时。所以需要随时间动态调整记忆

莱克斯・弗里德曼:我认为数据引擎方面,获取数据来理解你所说的所有概念,是一个不可思议的过程。



埃隆・马斯克:最初从简单的神经网络开始,基本上是对单个摄像头的单帧图像进行识别,然后尝试用 C 语言整合。我们要在全自动驾驶计算机的限制下进行大量计算,希望在有限的计算量和功率下实现尽可能高的每秒帧数。

高帧率、低延迟、低抖动。几乎所有相机都会做大量后期处理,计算机看到的图像实际上比人眼通过相机看到的包含更多数据 —— 即使在弱光条件下,也能检测到不同点之间光子计数的细微差异,这意味着它在黑暗中能看得非常清楚,比想象中好得多。同时,这还能节省 13 毫秒的延迟。

莱克斯・弗里德曼:是通过删除图像后期处理实现的吗?

埃隆・马斯克:实际上,抖动比延迟更具挑战性 —— 延迟是可预测的,但如果从相机到计算机,再到其他设备,最后到汽车执行器的整个流程中存在时间公差,就会产生多变的延迟,即抖动。这会让系统难以准确预测转向或加速操作,因为 150 到 200 毫秒的抖动可能会导致错失 2.2 秒的反应时间,影响很大。

莱克斯・弗里德曼:所以你们必须通过某种插值来处理抖动,才能做出可靠的控制决策。抖动可能发生在整个流程的任何阶段。

埃隆・马斯克:如果延迟固定,你可以预测,比如 “我们知道信息有 150 毫秒的延迟”,然后进行补偿。但如果延迟是 150 毫秒,加上 0 到 100 毫秒的抖动,总延迟就在 150 到 250 毫秒之间,这 100 毫秒的不确定性基本是随机的,所以消除抖动非常重要。


埃隆・马斯克:从根本上来说,车辆的抖动越少,操控性就越好。汽车将以超人的能力和反应时间进行操控,比人类快得多。我认为随着时间的推移,自动驾驶仪、全自动驾驶系统将能够完成远超詹姆斯・邦德在最佳电影中所能做到的动作。

发表评论

泰日号Copyright Your WebSite.Some Rights Reserved. 网站地图 备案号:川ICP备66666666号 Z-BlogPHP强力驱动