现在人们打棋牌麻将谁不想赢?手机微乐麻将必赢神器但是手机棋牌麻将是这么好赢的吗?在手机上打棋牌麻将想赢,不仅需要运气,也需要技巧。掌握的棋牌麻将技巧就...
2025-09-07 0
从1943年穿越而来!“世界模型”成AI新宠,LeCun、Hinton为何集体追捧?
2024年,人工智能领域突然掀起一股“复古潮”——一个源自1943年的概念,正被Meta的杨立昆(Yann LeCun)、Google DeepMind的德米斯·哈萨比斯(Demis Hassabis)、“深度学习三巨头”之一的杰弗里·辛顿(Geoffrey Hinton)等顶尖学者集体追捧。它就是“世界模型”,一个被形容为AI“内置计算雪花玻璃球”的理念。
如今,当ChatGPT还在为“幻觉回答”饱受争议,当自动驾驶因突发场景频繁失灵,研究者们突然发现:70多年前那位苏格兰心理学家的猜想,或许才是破解通用人工智能(AGI)的关键。这个古老概念为何能在当下卷土重来?它真能让AI拥有“理解世界”的能力吗?我们不妨从它的起源、争议与当下实践,拆解这场AI领域的“时空对话”。
一、70年前的超前猜想:从人类大脑到AI的“世界模型”
要讲清“世界模型”,必须先认识一个名字——肯尼思·克雷克(Kenneth Craik)。1943年,这位29岁的苏格兰心理学家出版了一本薄薄的专著《解释的本质》,书中的一个猜想,直接影响了后来70年的认知科学与AI发展。
克雷克在书中写道:“如果一个有机体的大脑中,携带着外部现实的‘小规模模型’,它就能在大脑里尝试各种备选方案,避开危险、选择最优解,最终更安全、更高效地应对现实。”简单来说,他认为人类的决策能力,本质上是大脑在“内部模拟世界”的结果——你不需要真的冲到火车前,就知道这会致命,因为大脑里的“世界模型”已经提前模拟了后果。
更具前瞻性的是,克雷克还把“认知”和“计算”绑在了一起。他提出:“模拟外部事件的能力,是神经机制与计算机器的共同基本特征。”在“人工智能”一词尚未诞生(1956年才被正式提出)的年代,他已经预见了:未来的机器若想拥有智能,或许也需要一套类似大脑的“世界模型”。
这个猜想在当时过于超前,直到1950年代“认知革命”爆发,心理学界才真正意识到其价值——它解释了人类为何能“未卜先知”,为何能在行动前规划策略。而当AI领域在1956年正式诞生后,研究者们几乎立刻就把克雷克的想法搬了过来:既然人类靠“世界模型”思考,那AI也该如此。
1968年,麻省理工学院(MIT)开发的AI系统SHRDLU,成了第一个“世界模型实践者”。它的“世界”很简单:一个由积木、桌子组成的虚拟空间。研究者为它手工编写了一套规则,比如“积木可以堆叠”“金字塔能放在方块上”,这套规则就是SHRDLU的“世界模型”。当人类问它“把红色方块放在蓝色金字塔上需要几步”时,它能在“模型里”模拟操作,再给出答案。
那时的研究者们乐观地认为,只要把“积木世界”的模型扩大到现实世界,AI就能拥有人类级别的智能。但现实很快给了他们一记重击:手工编写的模型根本无法应对复杂环境——比如预测天气需要考虑温度、湿度、气压等上百个变量,预测交通需要分析车流、信号灯、行人行为,这些变量相互关联、动态变化,靠人工编写规则根本不可能实现。
到了1980年代末,AI和机器人学先驱罗德尼·布鲁克斯(Rodney Brooks)彻底泼了冷水。他提出了一个著名论断:“世界本身就是最好的模型”“显式的模型表示只会碍事”。意思是,与其让AI在内部模拟世界,不如让它直接和现实互动——比如机器人不需要在脑子里模拟“如何走路”,而是通过传感器感知地面,一步步试错调整姿势。
这个观点直接主导了此后20年的AI发展方向,“世界模型”的概念逐渐被边缘化。直到2010年后,深度学习的爆发,才让这个沉睡了70年的古老理念,迎来了重生的机会。
二、深度学习“唤醒”世界模型:从“试错”到“预判”的质变
2013年,DeepMind发布了一款名为《神经赛车》(Neural Racing)的AI游戏。在游戏里,AI需要驾驶赛车在复杂赛道上行驶,避开障碍物、保持速度。让人惊讶的是,经过几万次训练后,AI不仅能熟练驾驶,还能在遇到弯道前提前减速——它似乎“知道”前方有弯道,而不是等到撞上障碍物才调整。
研究者们发现,这背后正是“世界模型”在起作用:深度学习网络没有依赖手工编写的规则,而是通过反复试错,在自己的神经元网络里“偷偷建了一个赛道模型”。它能根据当前的车速、位置,预测“下一秒会遇到什么”,再根据预测调整操作。
这和之前的AI完全不同。过去的机器人走路,是“走一步看一步”,靠传感器实时修正;而有了“世界模型”的AI,能“看一步走三步”,提前规划策略。这种从“被动反应”到“主动预判”的转变,让研究者们再次想起了克雷克的猜想——或许深度学习,就是构建“世界模型”的正确方式。
真正让“世界模型”重回聚光灯下的,是大型语言模型(LLMs)的“涌现能力”。2022年ChatGPT发布后,人们发现它能做很多“没被专门训练过”的事:比如从一串表情符号里猜出电影名(+=《泰坦尼克号》)、用奥赛罗棋的规则下棋、甚至根据历史数据预测股票走势。
这些能力从何而来?辛顿、OpenAI的伊利亚·苏茨克维尔(Ilya Sutskever)等专家给出了同一个解释:在LLMs数万亿个参数的深处,一定隐藏着一个“简化的世界模型”。比如,当ChatGPT能回答“北京到上海的高铁需要多久”时,它不是在背诵数据,而是在“模型里”模拟了“中国高铁网络”“两地距离”“行驶速度”等要素,再计算出结果。
克里斯·奥拉(Chris Olah)是OpenAI的AI可解释性专家,他的团队曾试图“打开”GPT-4的“黑箱”,寻找世界模型的痕迹。他们让GPT-4解决一个简单的物理问题:“一个球从10米高的地方落下,多久能落地?”通过分析神经元的激活情况,他们发现:GPT-4在计算时,确实有一部分神经元在模拟“重力”“自由落体公式”等物理概念——这正是“世界模型”的碎片。
这一发现让整个AI领域沸腾了:如果深度学习能自动学习“世界模型”,那之前手工编写模型的困境就迎刃而解了。Meta的LeCun甚至直言:“没有世界模型的AI,永远只能是‘工具’,而不是‘智能体’。要实现AGI,世界模型是绕不开的核心。”
一时间,几乎所有顶尖AI实验室都把“世界模型”列为核心研究方向:Google DeepMind在强化学习中加入“世界模型”模块,让AI能更快学会复杂任务;OpenAI在GPT-4的训练中加入视频、3D数据,试图让模型“看到”更立体的世界;Meta则直接推出“世界模型”专项研究计划,LeCun亲自带队。
但兴奋劲儿还没过去,研究者们就发现了一个残酷的现实:当下AI的“世界模型”,其实是“残缺的碎片”。
三、残酷的现实:AI的“世界模型”只是“盲人摸象”
2023年,哈佛大学和麻省理工学院(MIT)的研究者做了一个有趣的实验:他们让GPT-4生成“曼哈顿任意两点之间的步行路线”。结果让人惊喜——GPT-4给出的路线准确率高达95%,甚至能避开施工路段。
但接下来的测试,却暴露了致命问题:当研究者随机“封锁”1%的街道(比如告诉GPT-4“第五大道从42街到43街封闭”),GPT-4的路线规划能力瞬间崩溃——它要么反复推荐被封锁的路段,要么给出绕远10倍的错误路线。
为什么会这样?研究者们通过分析发现:GPT-4根本没有学习到“曼哈顿街道网络”的完整模型,它只是记住了“无数个点对点的经验法则”。比如“从时代广场到中央车站走第七大道最快”“从华尔街到布鲁克林大桥走百老汇大街”——这些法则就像一个个独立的“小口袋”,互不关联。
当没有障碍时,这些“小口袋”能应付大多数情况;但一旦出现新情况(比如某条街封闭),“小口袋”之间无法联动调整,自然就会出错。这就像“盲人摸象”的寓言:摸到象鼻的人说大象像蛇,摸到象腿的人说大象像树,摸到象尾的人说大象像绳子——他们都只掌握了碎片,却误以为自己了解整体。
AI的“世界模型”,目前就处于“盲人摸象”的阶段。OpenAI的研究者曾试图让GPT-4模拟“奥赛罗棋”的完整规则——这是一种简单的黑白棋,规则只有“翻转对方棋子”“只能在空位落子”等几条。但测试发现:GPT-4能正确回答“某一步能不能落子”,却无法计算“当前棋盘上双方各有多少棋子”——它记住了“落子规则”这个“象鼻”,却没理解“棋盘全局”这个“大象”。
更尴尬的是,这些“碎片”之间还可能相互矛盾。比如,当问GPT-4“猫会不会飞”,它会说“猫不会飞,因为没有翅膀”;但如果问“童话里的猫会不会飞”,它又会说“童话里的猫可能会飞,比如《爱丽丝梦游仙境》里的柴郡猫”。这两个答案单独看都对,但放在一起,就暴露了AI没有“统一的世界模型”——它只是根据“现实场景”和“童话场景”,分别调用了两个不同的“经验口袋”,却无法整合出“猫在不同场景下的属性”。
这种“碎片化”的问题,在AI的实际应用中带来了巨大隐患。比如,医疗AI能根据CT影像判断“是否有肺癌”,却无法解释“为什么这个影像特征对应肺癌”——它只是记住了“影像特征和疾病的关联”,却没有学习到“肺部生理结构”“癌细胞扩散规律”等底层逻辑。一旦遇到罕见病例,AI很可能给出错误诊断。
再比如自动驾驶,目前的自动驾驶系统能应对“正常路况”,却无法处理“突发场景”——比如前方车辆突然变道、行人横穿马路。因为它的“世界模型”是由无数“正常场景的经验法则”组成的,当遇到没见过的场景时,这些法则无法联动,只能“死机”或“误判”。
这就是为什么LeCun、辛顿等学者如此执着于“完整的世界模型”:碎片式的经验法则,只能让AI“应付”特定场景;而只有拥有“连贯的世界模型”,AI才能真正“理解”世界,应对各种突发情况——就像人类能绕过被封锁的街道,能在遇到新问题时举一反三。
四、AI界的“路线之争”:如何造出真正的“世界模型”?
既然“完整的世界模型”如此重要,那该如何构建?目前,AI领域分成了两大阵营,各有各的思路,谁也说服不了谁。
第一阵营是“数据驱动派”,代表是Google DeepMind和OpenAI。他们认为,不需要刻意设计模型结构,只要给AI足够多、足够丰富的“多模态数据”,世界模型会在神经网络里“自动长出来”。
什么是“多模态数据”?就是除了文本,还包括视频、3D模型、传感器数据、甚至人类的动作数据。比如,让AI看10万小时的城市交通视频,它就能学会“车辆、行人、信号灯的互动规律”;让AI玩1000种不同的物理游戏,它就能理解“重力、摩擦力、碰撞”等基本物理规则。
Google DeepMind的“RT-2”模型,就是这种思路的代表。它在训练时,不仅学习了文本和图片,还加入了机器人的“动作数据”——比如“拿起杯子”“打开抽屉”的视频。结果,RT-2能根据文字指令“把红色积木放在蓝色盒子上”,甚至能应对“盒子被推开”的突发情况——因为它从数据里学到了“物体位置变化”的规律,相当于有了一个简单的“物理世界模型”。
OpenAI的思路更激进,他们在GPT-4的后续版本中,加入了“实时视频输入”功能。比如,让AI通过摄像头“看到”厨房场景,它能识别出“冰箱里有牛奶”“灶台上有锅”,甚至能给出“热牛奶的步骤”——这背后,就是AI在根据视频数据,实时构建“厨房环境的临时模型”。
“数据驱动派”的逻辑很简单:人类的世界模型,也是通过“看、听、摸”等多感官体验慢慢建立的,AI也应该走同样的路。只要数据足够多,AI就能像人类婴儿一样,从混乱的信息中总结出规律,形成完整的世界模型。
但第二阵营的“结构驱动派”,却认为这种思路根本行不通。他们的代表,就是Meta的杨立昆(LeCun)——这位“深度学习三巨头”之一,公开批评“数据驱动”是“懒惰的做法”。
LeCun认为,靠数据堆砌永远无法得到“稳健的世界模型”。因为现实世界的场景是无限的,再大的数据集也无法覆盖所有情况——就像GPT-4无法应对“1%街道封闭”的情况一样,靠数据训练的AI,永远会在“没见过的场景”里出错。
他提出,必须为AI设计一套“先天的架构脚手架”,就像人类婴儿天生就有“理解因果关系”“识别物体恒存性”(知道物体不会凭空消失)的能力一样。AI需要先有这些“基础认知框架”,再通过数据学习具体的世界规则。
比如,LeCun团队正在研发的“预测性世界模型”,就加入了“时间、空间、因果”三个先天模块。其中,“时间模块”让AI知道“事件有先后顺序”,“空间模块”让AI理解“物体有位置和距离”,“因果模块”让AI能判断“A事件是否导致B事件”。有了这些框架,AI再学习具体数据时,就能把信息整合到正确的“认知框架”里,而不是零散的“经验口袋”。
LeCun甚至放话:“生成式AI(比如GPT系列)是死路一条,因为它们只会‘模仿’,不会‘理解’。真正的世界模型,必须是‘预测性’的,能判断‘如果我做A,会发生B’,而不是只会‘生成看起来像A的内容’。”
这两种思路的争论,目前还没有结果。但不管是“数据驱动”还是“结构驱动”,研究者们都有一个共识:构建世界模型,必须解决三个核心难题。
第一个难题是“如何验证模型的正确性”。人类的世界模型可以通过现实体验验证——比如你认为“火会烫手”,伸手试一下就知道;但AI的世界模型藏在神经网络里,研究者怎么知道它的“模型”是对的?比如,AI说“猫不会飞”,是真的理解“猫没有翅膀”,还是只是记住了这句话?目前还没有可靠的方法能“打开”AI的模型,验证其逻辑是否正确。
第二个难题是“如何平衡模型的‘简化’与‘精准’”。世界模型的核心是“简化现实”——如果把现实世界的所有细节都纳入模型,AI根本无法计算;但如果简化得太厉害,又会失去准确性。比如,预测天气时,忽略“云量”会导致预测错误,而考虑“每一朵云的位置”又会让计算量爆炸。如何找到“最优简化程度”,目前还是一个未解之谜。
第三个难题是“如何让模型适应变化”。现实世界是动态变化的——比如城市街道会新建、交通规则会调整、气候会变化。AI的世界模型如果不能实时更新,很快就会过时。但目前的AI模型,一旦训练完成,就很难再快速调整——比如GPT-4的知识截止到2023年,它无法知道2024年新建的街道。如何让世界模型“持续学习”,跟上世界的变化,也是一个巨大的挑战。
五、世界模型的未来:不止是AGI,更是“可靠的AI”
或许有人会问:花这么大的力气研究世界模型,真的值得吗?毕竟,现在的AI已经能写代码、做设计、辅助科研,碎片式的“经验法则”似乎也能满足很多需求。
但研究者们的答案是:为了AI的“可靠性”。
现在的AI,就像一个“考试高手”——它能在熟悉的场景里拿到高分,但一旦遇到新题型,就会手足无措,甚至交白卷。而世界模型,就是让AI从“考试高手”变成“解决问题的专家”。
比如,在医疗领域,有了“人体生理世界模型”的AI,不仅能根据CT影像判断疾病,还能解释“为什么这个症状对应这种疾病”,甚至能预测“如果用这种治疗方案,患者可能会出现什么副作用”——这会让医生和患者更信任AI的建议。
在自动驾驶领域,有了“交通世界模型”的AI,能在遇到“前方车辆突然变道”时,瞬间判断“对方的意图”“自己的刹车距离”“旁边车道是否有车”,然后做出最优决策——而不是像现在这样,要么急刹车,要么不知所措。
在科学研究领域,世界模型可能会成为
相关文章
现在人们打棋牌麻将谁不想赢?手机微乐麻将必赢神器但是手机棋牌麻将是这么好赢的吗?在手机上打棋牌麻将想赢,不仅需要运气,也需要技巧。掌握的棋牌麻将技巧就...
2025-09-07 0
现在人们打棋牌麻将谁不想赢?手机微乐麻将必赢神器但是手机棋牌麻将是这么好赢的吗?在手机上打棋牌麻将想赢,不仅需要运气,也需要技巧。掌握的棋牌麻将技巧就...
2025-09-07 0
最近这段时间,各家手机品牌的新系统都在进行预热了,那么vivo官方也放出了一些关于OriginOS6的爆料,比如全新控制中心、锁屏个性时钟、充电动效等...
2025-09-07 0
9月5日上午,“智联康复元诊疗”项目交流推进会在我校举办。上海市卫生健康委员会二级巡视员吴宏,市卫健委、市经信委相关处室负责人,各级医疗机构代表,中医...
2025-09-07 0
您好:这款游戏可以开挂,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到-人的牌一样。所以很多小伙伴就怀疑这...
2025-09-07 0
IT之家 9 月 7 日消息,华为小艺智慧助手已在今年 8 月底推送了 11.3.7.300 版本升级,带来了深度解题功能更新,并支持对发送的录音文件...
2025-09-07 0
现在人们打棋牌麻将谁不想赢?手机微乐麻将必赢神器但是手机棋牌麻将是这么好赢的吗?在手机上打棋牌麻将想赢,不仅需要运气,也需要技巧。掌握的棋牌麻将技巧就...
2025-09-07 0
发表评论