首页 抖音热门文章正文

视觉不仅是智能的一部分,还是智能的基石

抖音热门 2025年09月05日 10:03 2 admin

如果把 AI 看作一个巨大的气泡,计算机视觉无疑是 AI 的一个不可或缺的组成部分。视觉不仅是智能的一部分,它还是智能的基石。解开视觉智能的谜团,就是解开智能的谜团。

视觉不仅是智能的一部分,还是智能的基石

而解决 AI 的最重要工具之一、数学工具之一,是机器学习,也有人称之为统计机器学习。在机器学习领域内,过去十多年,我们见证了一场名为“深度学习”的重大革命。深度学习是一组围绕一种称为“神经网络”的算法家族而构建的算法技术。

就像整个 AI 领域一样,计算机视觉也越来越成为一个跨学科领域。我们使用的许多技术以及所处理的问题都与许多其他领域交叉,比如自然语言处理、语音识别、机器人学;而 AI 作为一个整体,又是与数学、神经科学、计算机科学、心理学、物理、 生物学以及从医学到法律、教育、商业等众多应用领域交叉的学科。

视觉的历史

视觉的历史并不是从你们出生时开始的,也不是从人类诞生时开始的。视觉的历史始于 5.4 亿年前。大量化石研究向我们展示了一个神秘的时期,称为“寒武纪大爆发”。化石研究显示,在那段时间里,进化过程大约经历了 1000 万年——对进化来说,这是一个非常短的时间窗口——我们看到了动物物种的爆炸式出现。这意味着在寒武纪大爆发之前,地球上的生命相当“淡定”。其实那时生命在水中,陆地上还没有动物,动物只是漂来漂去。

那么是什么造成了动物物种的爆发?理论很多,从气候到海水的化学成分。但其中一个最有说服力的理论是“眼睛”的出现。第一种动物——三叶虫——获得了对光敏感的细胞。

视觉不仅是智能的一部分,还是智能的基石

所以我们所说的“眼睛”,并不是复杂的晶状体、视网膜与神经细胞,而是真正意义上的一个非常简单的小孔。这个小孔收集光。一旦能收集光,生命就完全不同了没有传感器,生命就是代谢,非常被动,只是代谢,然后来去自如。有了传感器,你会成为你所处环境的一个不可分割的部分,你可能想要改变它,你可能真的想要在其中生存下去。有些动物或植物成了你的晚餐,而你也成了别人的晚餐。

因此,进化力量因为传感器的出现、因为视觉的出现(以及触觉/触感),驱动智能进化。这些是动物最古老的传感器。所以贯穿 5.4 亿年的视觉进化历程,就是智能的进化历程。视觉作为动物的主要感官之一,驱动了神经系统的发展、智能的发展。就我们今天所知,地球上的几乎所有动物都有视觉,或把视觉作为主要感官之一。人类尤其是高度依赖视觉的动物。我们超过一半的大脑皮层细胞参与视觉处理,我们拥有非常复杂且盘根错节的视觉系统。

现在,让我们从寒武纪大爆发快进到人类文明。人类会创新,我们不仅能“看”,我们还想要“造出会看”的机器。这里有几张图,出自达·芬奇,

视觉不仅是智能的一部分,还是智能的基石

视觉不仅是智能的一部分,还是智能的基石

他对一切都充满无穷的好奇。他研究了暗箱,也研究如何制造蒸汽机。事实上,早在他之前,在古希腊与古代中国,就有思想家、哲学家关于通过小孔投影物体以生成物体图像的文献。当然,在我们的现代生活中,相机确实“爆发式”普及了。但相机并不足以“看”,正如眼睛并不足以“看”。这些只是装置。我们需要理解视觉智能是如何发生的。

回到 20 世纪 50 年代——在神经科学中发生了一系列至关重要的实验,研究哺乳动物的视觉通路,尤其是 Hubel 与 Wiesel 的开创性工作。他们把电极插入麻醉状态的活猫体内,研究初级视觉皮层中神经元的感受野。他们令人惊讶地得出了两点非常重要的结论。

第一,负责“看”的初级视觉皮层中的神经元拥有各自独立的感受野。所谓感受野,是指对每个神经元来说,都有一片它实际“看见”的空间区域。不是整个空间,也不很大,往往是空间中非常局限的一小块。在这片区域内,它会看到特定的、简单的模式,尤其当你测量的是视觉通路较早期阶段时。总体而言,在初级视觉皮层(大致在后脑勺这里,不在眼睛附近),这些模式是具有方向的边缘,或者是移动的、具有方向的边缘。于是每个神经元中,有的会看到这样一个边缘;有的会看到那样一个边缘,或另一个方向的边缘。大脑中的计算就这样开始了。

第二,他们发现视觉通路是分层的。当你在视觉通路中逐层前行,神经元会将信息馈送到更高一层的神经元;越往视觉层级的高层(或更深层),神经元的感受野越复杂。因此,如果你从有方向的边缘开始,它们可能会汇聚成一个“角点”感受器,进而汇聚成一个“物体”感受器。我这里过度简化了,但概念就是这样:神经元彼此馈送,构成一个巨大的计算网络。

顺便说一句,大约 20 多年后,Hubel 与 Wiesel 因为揭示视觉处理原理而获得了诺贝尔生理学或医学奖。

计算机视觉早期历史的另一座里程碑,是第一篇计算机视觉方向的博士论文。大多数人把 1963 年 Lawrence Gilman Roberts 的论文视为第一篇,他研究“形状”。

视觉不仅是智能的一部分,还是智能的基石

这是对世界的一种非常、非常“字符化/符号化”的表征。想法是:我们能否拿一个这样的形状,并理解它的表面、角点与特征?人类显然可以直觉地做到。于是一整篇博士论文都致力于此,这也标志着计算机视觉的起点。

视觉不仅是智能的一部分,还是智能的基石

差不多同一时期,1966 年,MIT 一位教授发起了一个暑期项目,招了几位非常聪明的本科生研究“视觉”。目标几乎是要在一个夏天里“解决计算机视觉”,或者说“解决视觉”。当然,就像 AI 历史上的其他部分一样,我们总是对短期能做到的事过于乐观。所以那个夏天里视觉并没有被“解决”。事实上,它开枝散叶,发展成了一个令人惊叹的计算机科学领域。

但 1960 年代,介于Lawrence Roberts 的博士论文与这个项目之间,我们领域把这段时期视为计算机视觉学科的开端。

1970 年代,David Marr 写了一本奠基性的书,他不幸英年早逝。他试图系统地研究视觉,并开始思考视觉处理是如何发生的。尽管书中没有明确写出,但受到了大量来自神经科学和认知科学的启发。他在思考:如果给一个输入图像,我们如何对图像进行视觉处理并理解它?也许第一层更像“边缘”,就像我们看到的那样,他称之为“原始草图(primal sketch)”。接着是“2.5D 草图”,它把图像中不同物体的深度分离出来。最后,Marr 认为,解决视觉的“圣杯式胜利”是获取完整的三维表征。而这其实是视觉中最难的部分。

想一想:对所有动物来说,视觉是一个不适定问题。自从早期的三叶虫从水下收集光以来,世界——通过光子——被投影到某个表面上,或多或少是 2D 的。那时仅仅是动物身上的某块区域;而现在对我们来说,是视网膜。但真实的世界是 3D 的。所以,从 2D 图像中恢复 3D 信息、恢复整个 3D 世界,是大自然必须解决、计算机视觉也必须解决的基本问题。

从数学上看,这是一个不适定问题。那么我们后来做了什么?大自然的技巧是发育出多只眼睛,多数是两只。有些动物超过两只。然后进行三角测量。但两只眼还不够,你还必须理解“对应关系”等等。这是一个非常难的问题,而我们必须解决它。大自然已经解决了它。人类也解决了,但远未达到极致精确。事实上,人类并不那么精确。我大致知道 3D 形状,但并不具备对所有形状的几何级精度。认识到并欣赏这个问题之难,是很重要的。

与语言相比,计算机视觉在哲学层面上有着微妙而本质的差异。语言并不存在于自然界中,你无法指向某个客观实体说“这就是语言”。语言是人类大脑纯粹“生成”的产物,我甚至很难找到一个准确的词来形容它。它源于我们的思维,是一维的、序列化的。这一特性深刻影响了近一波生成式 AI 算法的设计,也正是为什么大型语言模型(LLM)如此强大——因为语言可以被以这种序列化的方式进行建模。

而视觉却不同。视觉并非由大脑凭空生成,而是源于一个客观存在的物理世界,这个世界遵循物理和材料的规律。因此,视觉所面临的任务与语言有着本质上的不同。我只是希望你们能体会这种差异,并且由衷地欣赏大自然在解决视觉问题时展现出的非凡智慧。

回到1970 年代。计算机视觉的早期先驱,在没有数据、没有强大计算资源、也没有我们今天看到的数学进展的情况下,就已经开始尝试解决一些较难的问题——比如物体识别。早期开创性工作之一是 Rodney Brooks 和 Tom Binford 的“广义圆柱(generalized cylinders)”。

到了 1980 年代,数字照片开始出现——至少照片开始可以被数字化,然后在边缘检测方面出现了一些很棒的工作。

视觉不仅是智能的一部分,还是智能的基石

看到这些,你们可能会有点失望:好像也就画点“素描”和“边缘”。当时的计算机视觉差不多就是这样。事实上,领域进入了“AI 寒冬”。许多事情没有兑现:计算机视觉没有兑现,专家系统没有兑现,机器人也没有兑现。

但在这场“寒冬”的背后,许多来自不同领域的研究开始生长,比如计算机视觉、NLP、机器人学。

认知科学与神经科学

让我们再看另一条对计算机视觉产生深远影响的研究脉络:认知科学与神经科学继续蓬勃发展。尤其对计算机视觉领域非常重要的是,认知科学和神经科学开始为我们指明“方向”式的问题。例如,心理学家告诉我们,观看“自然界/真实世界”有其特殊之处。这是 Irv Biederman 的一项研究:他展示两张图片上检测自行车的差异,取决于图像是否被打乱(scrambled)。

视觉不仅是智能的一部分,还是智能的基石

想一想,从光子角度看,这两辆自行车落在你视网膜的位置是相同的,但不知为何,图像其余部分会影响观察者对目标物体的看见。因此有某种东西在告诉我们:看到整个“森林/世界”会影响我们如何看见“树/物体”。这也告诉我们,视觉处理非常迅速。

再看另一项直接衡量我们检测物体速度的研究。1970 年代早期的一项实验给人们看一个视频,让被试在视频帧中检测“人”。

想想这是多么了不起:你从未见过这个视频;我没告诉你目标会出现在哪一帧;我也没告诉你目标长什么样、在哪里、姿态如何,等等。然而你们检测到“人”毫无困难。

更重要的是,这些帧以 10 Hz 的速度播放,这意味着你每帧只看 100 毫秒。这就是我们视觉系统的非凡之处。

事实上,另一位认知神经科学家 Simon Thorpe 测量了速度:如果给人戴上 EEG 帽,展示复杂的自然场景,要求他们对“有动物”与“无动物”做分类——成百上千张图,然后你测量脑电波。结果显示,在看到一张照片后 150 毫秒,你的大脑已经产生了可区分的信号来完成分类。也许你并不那么惊讶,因为与今天的 GPU 和现代芯片相比,150 毫秒慢了几个数量级。但你必须钦佩:我们的“湿件”(大脑、神经元)的运行速度不如晶体管。150 毫秒事实上非常快——在神经处理的意义上,这只是大脑中几次跳跃而已。再一次,这说明人类在看到物体、对其进行分类方面非常擅长。

实际上,我们不仅擅长看到并分类物体,甚至在大脑中发展出专门的脑区,能以专家般的能力识别人脸、场所或身体部位。这些是 MIT 的神经生理学家在 1990 年代和 21 世纪初的发现。所有这些研究告诉我们:不要只研究这类“字符形状”或“图像素描”。我们确实应该追求那些驱动视觉智能的、重要的基本问题。其中之一、所有证据都在指向的,就是“物体识别”——在自然环境中的物体识别。世界上有大量物体,研究它将是解锁视觉智能的一部分。

整个领域从 1990 年代开始研究如何从背景中分离前景物体,这被称为“通过分组来识别(recognition by grouping)”。那时还处在 AI 寒冬,但研究其实在持续推进。随后是“特征”的研究。

最让人兴奋的是“人脸检测”。21世纪初,《Rapid Object Detection using a Boosted Cascade of Simple Features》发表,五年后第一台数码相机采用了这篇论文的算法,实现了自动人脸对焦,因为有人脸检测。于是有些东西开始奏效,并进入了工业界。

然后,大约在 21 世纪初,发生了一件非常重要的事情:互联网出现了。互联网出现后,数据开始激增。数码相机与互联网的结合开始给计算机视觉领域提供可用的数据。因此在早期,我们用成千上万、或几万张图像来研究视觉识别问题或物体识别问题。于是就有了像 PASCAL Visual Object Challenge、Caltech 101 这样的数据集。

当视觉领域沿着“神经生理学→计算机视觉→认知神经科学→再到计算机视觉”的路径推进时,另一条独立的领域在并行进行,最终成为“深度学习”。

深度学习

它始于对神经网络的早期研究,比如“感知机(perceptron)”。Rumelhart 等人开始工作,当然还有 Jeff Hinton 在他早期的工作中,研究少量人工神经元如何处理信息与学习。你们也听说过像 Marvin Minsky 这样的大师与其同事在“感知机”等不同方面的工作。但 Minsky 确实指出感知机无法学习 XOR 逻辑函数,这给神经网络带来了一点挫折。

不过,尽管有挫折,研究仍在推进。第一次拐点之前,最重要的工作之一是日本福岛邦彦提出的“新认知机(Neocognitron)”。福岛手工设计了一个看起来像这样的神经网络:

视觉不仅是智能的一部分,还是智能的基石

大约五六层,他逐层设计不同的功能,或多或少受我刚才描述的视觉通路的启发。记得猫的实验吗?从简单感受野到更复杂感受野。他在此也做了类似的事:早期层做简单功能,后面更深层做复杂功能。简单的可以称为“卷积”,或者他使用了“卷积”这种函数;更复杂的层则从卷积层汇聚信息。新认知机在工程上是一个壮举,因为每一个参数都是手工设计的。成百上千的参数,他必须精心组合,使这个小型神经网络能够识别数字或字母。

真正的突破出现在 1986 年前后:一种学习规则,称为“反向传播(backpropagation)”。Rumelhart、Jeff Hinton 他们把误差校正的目标函数引入神经网络架构中——如果你输入一些数据,并知道正确输出,那么怎样利用神经网络输出与真实答案之间的差异,把信息反向传播,从而改进神经网络各处的参数?这种从输出端回传到整个网络的传播称为反向传播,它遵循一些基本的微积分链式法则。这对神经网络算法而言是一个分水岭时刻。当然,那时我们仍深陷 AI 寒冬,所有这些工作都没有什么公众热度,但在学界它们是非常重要的里程碑。

神经网络与反向传播的一项最早应用,是 Yann LeCun 在 1990 年代(他在贝尔实验室)提出的卷积神经网络。他把网络做得稍微大一点,大约七层,并通过出色的工程实现,使其能够很好地识别字母。它实际上被用于美国部分邮政系统与银行,读取数字与字母。这是早期神经网络的一个应用。随后 Hinton 与 LeCun 继续推进神经网络,但进展不大。尽管对神经网络不断改进与微调,事情基本上停滞了。他们收集了一个很大的数字与字母数据集;在数字与字母的识别上算是“半解决”。但如果你把系统放到神经科学家所用的那类“数字照片”上去识别猫、狗、微波炉、椅子、花朵,它就行不通。

一个巨大的问题是数据缺乏。数据缺乏不仅仅是不方便,从数学上也是个问题。因为这些算法是高容量的(high capacity),需要大量数据驱动才能学会“泛化”在“泛化”与“模型过拟合”背后存在一些深刻的数学原理。数据的重要性长期被低估了,因为大多数人只盯着这些网络结构,没有意识到数据在机器学习与深度学习中是“第一等公民”。

这正是李飞飞团队在 2000 年代初所做的一部分工作:她们认识到数据的重要性,提出假设:整个领域其实忽视了——低估了数据的重要性。于是她们着手收集了一个庞大的数据集——ImageNet:在清理了十亿张图之后,留下了 1500 万张图片。她们把这 1500 万张图片分为 2.2 万个物体类别。

她们还研读了大量认知与心理学文献,认为 2.2 万个类别与人类早年学习识别的类别数量大致同量级。随后她们将该数据集开源,并创建了一个 ImageNet 挑战,称为大规模视觉识别挑战(Large Scale Visual Recognition Challenge)。她们从 ImageNet 中筛选了一个子集:一百多万张图片、1000 个物体类别,然后连续多年举办国际性的物体识别挑战。目标是邀请研究者参赛,不论他们使用何种算法。她们会在照片上测试你们的算法,看看能否尽可能准确地识别出这 1000 个物体类别。第一年比赛,最佳算法的错误率接近 30%,非常糟糕,因为人类可以做到比如 3% 以下。2011 年也不算太令人兴奋。

但 2012 年发生了大事,那是最激动人心的一年。那一年,Hinton 和他的学生使用卷积神经网络参加了挑战,把错误率几乎减半,真正展示了深度学习算法的威力。2012 年参加 ImageNet 的算法叫 AlexNet。有趣的是,如果你看看 AlexNet,它与 32 年前福岛的新认知机并没有那么不同。但两者之间发生了两件大事:其一是反向传播出现了——一个有原则、数学上严谨的学习规则,使你再也不需要用手工来调参数;这是理论上的重大突破。

另一个突破是“数据”——对数据的认知与理解:用数据驱动这些高容量模型(它们最终会有万亿级参数——当然当时只有几百万参数)对点燃深度学习至关重要。很多人把 2012 年以及赢得 ImageNet 挑战的 AlexNet 视为现代 AI 的诞生/重生时刻,或深度学习革命的诞生时刻。

自那以后我们进入了深度学习爆发的时代。论文数量爆炸式增长。此后产生了许多新算法参加 ImageNet 挑战。关键是,这些超越 AlexNet 的算法对计算机视觉领域的发展以及其应用产生了深远影响。

不仅计算机视觉在创造识别日常事物(比如猫、狗、椅子)算法方面取得了重大进展,我们还很快——就在 2012 年时刻之后——拥有了能识别更复杂图像的算法、能进行图像检索、能做多目标检测、能做图像分割的算法。这些都是视觉识别中的不同任务。

视觉识别的能力中蕴含着极其丰富的细节。当然,视觉也不只局限于静态图像,于是在视频分类、人类动作识别上也有工作。

当然,在生成式 AI 时代,我们得到了极其惊人的成果,比如人脸生成。如今 Midjourney 等已远远超越这些“牛油果椅子、桃子椅子”。毋庸置疑,我们正处在 AI 爆炸的最令人兴奋的现代时代。计算、算法与数据这三股合流的力量把这个领域带到了一个全新的高度,我们现在完全走出了“AI 寒冬”。我们正处在“AI 全球变暖期”,我看不到这一切有任何放缓的迹象,无论是出于好的还是坏的原因。

发表评论

泰日号Copyright Your WebSite.Some Rights Reserved. 网站地图 备案号:川ICP备66666666号 Z-BlogPHP强力驱动