自然与科学两大世界顶级杂志围绕“AI模拟人类心智”发生激烈争论

抖音推荐 2025年07月27日 22:36 1 admin

一项声称能够"模拟人类心智"的人工智能研究正在引发学术界的激烈辩论。7月2日，《自然》杂志刊发了一项开创性研究，介绍了名为"Centaur"的AI模型，研究团队宣称该系统能够精准预测和模拟人类行为。然而，同日《科学》杂志立即跟进报道，揭示了科学界对这项研究的深度质疑，部分专家甚至用"荒谬"来形容这一模型。

这场争论的核心在于一个根本性问题：预测人类行为是否等同于理解人类心智？随着人工智能技术不断发展，这一争议反映了科学界对AI能力边界认知的深刻分歧。

Nature论文

技术突破还是过度宣传

Centaur模型由德国Helmholtz AI研究计划、谷歌DeepMind和普林斯顿大学等机构的跨国团队共同开发。该模型基于Meta的开源大模型Llama 3.1 70B构建，通过名为"Psych-101"的庞大数据库进行训练。这个数据库包含160项心理学实验中超过6万名参与者的详细行为数据，记录了超过1000万次选择决策。

研究团队采用量化低秩适配技术对模型进行微调，仅使用传统模型0.15%的参数就实现了对人类行为的精准模拟。在实验中，Centaur不仅能够预测人类在熟悉场景中的行为，还能在全新环境中展现出令人印象深刻的泛化能力。

更引人注目的是，研究人员发现Centaur的内部表征与人类大脑活动存在相似性。通过功能性磁共振成像数据分析，他们证实Centaur在处理信息时的方式与人类神经活动模式呈现显著相关性。这一发现被研究团队视为模型真正"理解"人类认知过程的重要证据。

Psych-101包含的数据 | 图源：论文

在实际应用中，Centaur展现出了多项令人瞩目的能力。它能够在多维度决策实验中准确预测人类选择，甚至能够预测人类的反应时间。研究团队还利用该模型帮助发现了人类决策过程中的新规律，例如在多属性决策中，权威专家意见的作用机制比此前认知更加复杂。

学术界的严厉反击

然而，这些看似令人信服的结果并未赢得学术界的一致认可。加拿大麦吉尔大学计算神经科学家Blake Richards明确表示，科学界相当一部分人会对这篇论文持高度怀疑态度。他强调，Centaur本质上仍然是一个基于统计模式匹配的大模型，其核心机制是根据概率预测下一个词，这与人类的认知过程存在根本性差异。

Centaur的大致框架丨图源：论文

英国布里斯托大学认知科学家Jeffrey Bowers的批评更加直接。他亲自测试了Centaur模型，发现其展现出明显的"超人"行为特征。在短时记忆测试中，Centaur能够记住256位数字，远超人类平均水平的7位；在反应时间测试中，模型甚至能在1毫秒内做出反应。Bowers认为，这些表现恰恰证明了模型的机制与人类认知存在本质区别。

在不同任务上，人类与 Centaur 模型在“奖励值”和“信息奖励参数”上的概率密度分布图 | 图源：论文

批评者指出，Centaur虽然能够在行为层面模拟人类，但这种模拟更像是一种高度精确的统计拟合，而非真正的认知理解。他们用模拟时钟和数字时钟的比喻来说明这一观点：两种时钟都能显示正确时间，但内部运行机制完全不同。

更深层的质疑涉及数据覆盖范围的局限性。尽管Psych-101数据集规模庞大，但160项实验相对于人类认知的复杂性仍然有限。批评者担心，模型可能只在训练数据覆盖的狭窄范围内表现良好，其泛化能力的可靠性存疑。

争议背后的深层思考

这场争论反映了人工智能领域一个更加根本的哲学问题：机器学习模型的成功预测能力是否意味着它们真正"理解"了所模拟的现象？在认知科学研究中，这一问题尤为重要，因为它直接关系到我们对人类心智本质的理解。

Centaur 表征所预测的神经活动与 BOLD 数据之间的皮尔逊相关系数，它在左侧运动皮层的预测最为准确。| 图源：论文

支持者认为，Centaur模型在多个独立任务中的一致性表现，以及其内部表征与大脑活动的相似性，提供了模型确实捕捉到某种深层认知规律的证据。他们强调，即使模型的具体机制与人类大脑不同，但如果能够在广泛的认知任务中展现出人类般的行为模式，这本身就具有重要的科学价值。

模型引导的科学发现，利用 Psych-101 和 Centaur 来辅助构建一个用于多属性决策研究的认知模型 | 图源：论文

然而，批评者坚持认为，行为层面的匹配并不等同于机制层面的理解。他们担心，过度强调模型的"认知"能力可能会误导公众和政策制定者，同时也可能阻碍对人类心智真正机制的深入研究。

Science对Nature这项研究的报道

这场争论的结果可能对人工智能和认知科学的未来发展产生深远影响。它提醒研究者在评估AI模型能力时需要更加谨慎，区分模型的预测能力和解释能力。同时，它也推动了关于如何建立更严格的AI能力评估标准的讨论，这对于确保人工智能研究的科学严谨性具有重要意义。

随着AI技术继续快速发展，类似的争议可能会更加频繁地出现。如何在承认技术进步的同时保持科学的审慎态度，将是学术界面临的持续挑战。

Go与Java性能PK赛解析

90后养老就靠它？清华系机器人WAIC炫技，叠衣取货秀翻全场

发表评论

自然与科学两大世界顶级杂志围绕“AI模拟人类心智”发生激烈争论

Go与Java性能PK赛解析

90后养老就靠它？清华系机器人WAIC炫技，叠衣取货秀翻全场

最新评论

最新留言

标签列表