苏黎世联邦理工发现大模型推理能力的致命短板

抖音热门 2025年08月31日 17:20 1 admin

苏黎世联邦理工学院的最新研究彻底颠覆了人工智能在数学推理领域的光辉形象。当前最先进的大型语言模型在面对理论计算机科学的经典难题时表现惨不忍睹，即使是表现最佳的模型也仅能达到57.5%的成功率，而在更复杂的混合布尔算术问题上，成功率更是跌至令人震惊的12%。这一发现不仅质疑了AI系统宣称的超人推理能力，更揭示了当前技术路径在数学证明领域的根本性局限。

这项由Terry Jingchen Zhang领导的研究团队采用了前所未有的评估方法：利用理论计算机科学中的不可判定问题自动生成无限量的定理证明挑战。与传统依赖有限数据集的评估方式不同，这种方法能够持续产生全新的、未被模型在训练过程中见过的数学问题，从而提供了对AI推理能力的真实测试。

研究结果显示，包括OpenAI的o3、DeepSeek-Prover系列在内的顶级模型在处理这些来自计算理论核心的问题时普遍失败。更为令人担忧的是，这些模型的失败模式揭示了一个深层次的问题：它们在单个推理步骤上表现接近完美，但在将这些步骤组织成连贯的数学证明时却完全崩溃。

不可判定问题的终极挑战

研究团队选择了两类在理论计算机科学中具有标志性意义的问题作为测试基准。忙碌海狸问题代表了计算理论中最具挑战性的不可判定问题之一，它要求确定给定状态数的图灵机在空白纸带上能够运行的最大步数。这个问题的复杂度随着状态数的增加呈指数级增长，从包含64个机器的简单情况一直延伸到涉及42亿个机器的极端复杂情况。

混合布尔算术问题则来自密码学和软件混淆技术领域，要求证明看似复杂的位运算表达式与简单算术表达式的等价性。例如，证明表达式"x+y"与"(x XOR y) + 2*(x AND y)"在数学上完全等价。这类问题不仅考验模型的符号操作能力，更测试其对不同数学运算系统之间深层关系的理解。

这种基于理论计算机科学的评估方法具有革命性意义。传统的AI数学能力测试往往依赖预先收集的题目集合，存在数据泄露和题目重复的风险。而通过算法生成的方法，研究人员可以创造出事实上无限多样的测试用例，确保每次评估都面对的是全新的挑战。

推理能力的系统性缺陷

实验结果揭示了当前AI系统在数学推理方面的系统性缺陷。最先进的DeepSeek-Prover-v2-671B模型在忙碌海狸问题上的57.5%成功率看似不错，但考虑到这些问题的基础性质，这一表现实际上暴露了严重问题。在混合布尔算术问题上，同一模型的12%成功率更是令人担忧，而多个模型的完全失败（0%成功率）则表明了问题的严重性。

更深入的分析显示，模型的失败并非源于基础计算能力的不足，而是源于全局推理策略的缺失。研究发现，这些模型在执行单个推理步骤时能达到98.88%的准确率，这表明它们具备了处理局部数学操作的能力。然而，当需要将这些局部操作组织成完整的证明时，模型的表现急剧下降。

这种现象反映了当前大型语言模型架构的根本局限。这些系统本质上是基于统计模式匹配的下一词预测器，它们能够学会识别和重现局部的数学操作模式，但缺乏进行长程推理规划的能力。在数学证明中，成功往往需要预先规划整体策略，然后逐步执行，这正是当前模型架构所缺乏的能力。

失败模式的深层分析

研究团队对模型失败模式的详细分析揭示了几种典型的错误类型。幻觉现象占据了67.27%的错误，模型经常引用不存在的定理或使用不适用的证明策略。例如，模型可能试图对一个关于图灵机停机的问题使用数学归纳法，显示出对问题本质的根本误解。

战术误用占23.22%的错误，反映了模型对形式化证明系统工具的盲目依赖。许多模型过度依赖自动化战术工具，如"aesop"或"bv_decide"，而不理解这些工具的适用范围和限制。这种现象类似于学生死记硬背数学公式而不理解其适用条件，在遇到新情况时自然会失败。

另外4.88%的错误表现为模型的"自愿放弃"，直接输出Lean证明助理中表示放弃的"sorry"标记。这种行为暴露了模型在面对真正困难问题时缺乏坚持探索的能力，更重要的是，它表明模型缺乏对问题难度的准确判断。

类型不匹配错误占4.47%，虽然比例较小，但反映了模型对形式化数学语言类型系统理解的不足。在严格的形式化环境中，即使微小的类型错误也会导致整个证明的失败，这要求系统具备精确的符号操作能力。

人工智能推理的未来挑战

这项研究的影响远超数学定理证明领域，它为整个人工智能推理能力的评估和发展提供了重要启示。首先，它证明了单纯依靠扩大模型规模和增加训练数据并不能解决推理能力的根本问题。即使是参数量达到数千亿的最大模型，在面对需要真正推理的问题时仍然表现不佳。

其次，研究揭示了当前评估方法的不足。许多关于AI数学能力的乐观报告可能建立在有偏差的测试基础上，包括数据泄露、问题重复或测试集污染等问题。通过引入基于理论计算机科学的自动生成方法，这项研究为建立更公正、更严格的AI能力评估标准奠定了基础。

从技术发展角度来看，这些发现指向了人工智能架构需要的根本性改进方向。当前的transformer架构虽然在模式识别和局部处理方面表现出色，但在需要全局规划和长期推理的任务上存在固有限制。未来的AI系统可能需要结合符号推理、规划算法和神经网络的混合架构。

研究团队开源了其评估框架和相关代码，为学术界和产业界提供了一个标准化的AI推理能力测试平台。这个平台不仅能够持续生成新的测试用例，避免数据集过时的问题，还能够为不同的研究目标提供可调节难度的挑战。

这项研究最终传达的信息是清晰的：尽管人工智能在许多应用领域取得了显著进展，但在需要深度推理和证明构建的数学领域，当前技术仍有很长的路要走。真正的人工智能不仅需要能够识别和重现已知模式，更需要具备创造性地解决全新问题的能力。

X射线透视核心，新方法可以监测核反应堆的腐蚀和开裂

安装教程“微信小程序江西红中麻将规律”（辅助器插件)

发表评论

苏黎世联邦理工发现大模型推理能力的致命短板

X射线透视核心，新方法可以监测核反应堆的腐蚀和开裂

安装教程“微信小程序江西红中麻将规律”（辅助器插件)

最新评论

最新留言

标签列表