科学家窥探大模型的“想法”，发现它用树状数学跟踪变化的信息

游戏天地 2025年07月25日 10:25 1 admin

作者：Alex Shipps，麻省理工学院

假设您正在阅读一个故事，或正在下棋。你可能没有注意到，但每一步，你的大脑都会跟踪情况（或“世界状况”）是如何变化的。您可以将其想象为一种事件列表序列，我们用它来更新对接下来会发生什么的预测。

像 ChatGPT 这样的语言模型在完成代码块或预测您接下来要编写的内容时也会跟踪自己“头脑”内的变化。他们通常使用 Transformer（帮助模型理解顺序数据的内部架构）做出有根据的猜测，但由于有缺陷的思维模式，系统有时是不正确的。

识别和调整这些潜在机制有助于语言模型成为更可靠的预测者，尤其是在预测天气和金融市场等更动态的任务中。

但这些人工智能系统是否像我们一样处理发展中的情况？麻省理工学院计算机科学与人工智能实验室（CSAIL）和电气工程与计算机科学系的研究人员发布到 arXiv 预印本服务器的一篇新论文表明，这些模型在序列中的每个渐进步骤之间使用巧妙的数学捷径，最终做出合理的预测。

该团队通过深入了解语言模型来评估它们对快速改变位置的物体的跟踪程度。他们的研究结果表明，工程师可以控制语言模型何时使用特定的变通方法来提高系统的预测能力。

壳牌游戏

研究人员使用一个让人想起经典注意力游戏的巧妙实验分析了这些模型的内部工作原理。曾经有没有将物体放在杯子下并用相同的容器洗牌后猜测物体的最终位置？该团队使用了类似的测试，其中模型猜测特定数字的最终排列（也称为排列）。模型被赋予了一个起始序列，例如“42135”，以及有关何时何地移动每个数字的说明，例如将“4”移动到第三个位置并继续前进，而不知道最终结果。

在这些实验中，基于变压器的模型逐渐学会了预测正确的最终排列。不过，系统不是根据给出的指令来打乱数字，而是聚合连续状态（或序列中的各个步骤）之间的信息并计算最终排列。

该团队观察到的一种首选模式称为“关联算法”，它本质上是将附近的步骤组织成组，然后计算最终的猜测。您可以将此过程视为像一棵树一样的结构，其中初始数字排列是“根”。当您向上移动树时，相邻的步骤将分组到不同的分支中并相乘在一起。树的顶部是最终的数字组合，通过将分支上的每个结果序列相乘来计算。

语言模型猜测最终排列的另一种方式是通过一种称为“奇偶校验关联算法”的巧妙机制，该算法本质上是在对选项进行分组之前对其进行削减。它确定最终排列是单个数字的偶数或奇数重新排列的结果。然后，该机制在相乘之前对来自不同步骤的相邻序列进行分组，就像关联算法一样。

“这些行为告诉我们，变压器通过关联扫描来执行模拟。这些模型不是逐步跟踪状态变化，而是将它们组织成层次结构，“麻省理工学院博士生、CSAIL 附属机构、该论文的主要作者 Belinda Li SM '23 说。

“我们如何鼓励变压器学习更好的状态跟踪？与其强加这些系统以类似人类的顺序方式形成对数据的推断，也许我们应该迎合它们在跟踪状态变化时自然使用的方法。

“研究的一种途径是沿着深度维度扩展测试时计算，而不是标记维度——通过在测试时推理期间增加 transformer 层的数量而不是思维链标记的数量，”Li 补充道。“我们的工作表明，这种方法将允许 transformer 构建更深层次的推理树。”

透过镜子

Li 和她的合著者观察了联想和奇偶校验算法如何使用允许它们窥视语言模型“思想”内部的工具工作。

他们首先使用了一种称为“探测”的方法，该方法显示哪些信息流经人工智能系统。想象一下，您可以观察模型的大脑，以查看它在特定时刻的想法——以类似的方式，该技术绘制出系统对数字最终排列的实验中期预测。

然后使用一种名为“激活修补”的工具来显示语言模型在何处处理情况的变化。它涉及干预系统的一些“想法”，将不正确的信息注入网络的某些部分，同时保持其他部分不变，并查看系统将如何调整其预测。

这些工具揭示了算法何时会出错，以及系统何时“弄清楚”如何正确猜测最终排列。他们观察到，关联算法比奇偶校验关联算法学习得更快，同时在较长的序列上也表现更好。李将后者在更详细指令方面的困难归因于过度依赖启发式（或允许我们快速计算出合理解的规则）来预测排列。

“我们发现，当语言模型在训练的早期使用启发式方法时，它们会开始将这些技巧构建到他们的机制中，”李说。“然而，这些模型往往比不依赖启发式的模型更能泛化。我们发现某些预训练目标可以阻止或鼓励这些模式，因此在未来，我们可能会寻求设计技术来阻止模型养成坏习惯。

研究人员指出，他们的实验是在根据合成数据进行微调的小型语言模型上进行的，但发现模型大小对结果影响不大。这表明微调更大的语言模型（例如 GPT 4.1）可能会产生类似的结果。该团队计划通过测试尚未微调的不同大小的语言模型来更仔细地检查他们的假设，评估它们在动态现实世界任务（例如跟踪代码和跟踪故事如何演变）上的性能。

哈佛大学博士后 Keyon Vafa 没有参与这篇论文，他表示研究人员的发现可以为推进语言模型创造机会。“大型语言模型的许多用途都依赖于跟踪状态：从提供食谱到编写代码再到跟踪对话中的细节，”他说。

“这篇论文在理解语言模型如何执行这些任务方面取得了重大进展。这一进展为我们提供了关于语言模型正在做什么的有趣见解，并为改进它们提供了有前途的新策略。