研究员：逆向还原OpenAI模型为基础版

抖音快讯 2025年08月19日 08:10 1 admin

OpenAI最新的开源权重大语言模型家族gpt-oss在不到两周前以Apache 2.0许可证发布——这是该公司自2019年GPT-2以来首次发布开源权重模型——但公司外部的开发者已经开始对其进行改造。

最引人注目的例子来自康奈尔理工学院博士生、前谷歌大脑研究员、现任Meta研究员Jack Morris。本周，他推出了gpt-oss-20b-base，这是他对OpenAI较小版本gpt-oss-20B模型的重新改造版本，移除了模型的"推理"行为，将其还原为预训练的"基础"版本，提供更快速、更自由、更无审查和无约束的响应。

该模型现已在Hugging Face上以宽松的MIT许可证提供，允许用于研究和商业应用。

gpt-oss-20B-base与OpenAI的gpt-oss模型的区别

要理解Morris的做法，需要了解OpenAI的发布版本与AI研究人员所称的"基础模型"之间的区别。

大多数由OpenAI、Anthropic、谷歌以及Meta、DeepSeek、阿里巴巴Qwen团队等开源提供商提供的大语言模型都是"后训练"的。这意味着它们经过了额外阶段，接触了精心策划的期望行为示例。

8月5日OpenAI发布的gpt-oss模型是"推理优化"的：经过训练和微调，不仅能预测下一个词，还能以安全、一致的方式遵循指令，通常在产生最终答案之前通过结构化的"思维链"推理来分析问题。

基础模型则不同。它是大语言模型在应用推理特定对齐之前的原始预训练版本。基础模型只是试图根据之前的内容预测下一个文本块，没有内置的保护机制、风格偏好或拒绝行为。

Morris的目标是"逆转"OpenAI的对齐过程，将较小的gpt-oss-20B恢复到更接近其原始预训练状态的版本。

"我们基本上逆转了大语言模型训练的对齐部分，现在我们有了能再次产生自然文本的东西，"他在X线程中写道。"它不再进行思维链推理。它回到了只是预测通用文本中下一个Token的模型。"

如何从OpenAI的gpt-oss-20b中提取基础模型

Morris没有尝试用巧妙的提示来越狱模型——他说在早期实验中证明这种方法无效——而是在与前OpenAI联合创始人、前Anthropic研究员、现任Thinking Machines首席科学家John Schulman交谈后采取了不同的策略。

关键是将对齐逆转视为一个小型优化问题：如果模型的大部分预训练知识仍然存在于其权重中，那么可能只需要一个微小的低秩更新就能将其推回基础模型行为。

Morris通过对模型的三层——第7、15和23位置的MLP层——应用秩为16的LoRA（低秩适配器）更新来实现这一想法。这意味着训练大约6000万个参数，占模型210亿总参数的0.3%。他使用了FineWeb数据集中的约20000个文档，保持格式尽可能接近原始预训练风格。

Morris告诉VentureBeat，训练在八个NVIDIA H200 GPU上进行了四天，学习率为2e-6，批量大小为16，最大序列长度为8192个Token。

新gpt-oss-20b-base模型的行为差异

生成的gpt-oss-20b-base在输出上明显更自由。它不再默认逐步解释推理，会产生更广泛的响应，包括OpenAI对齐模型会拒绝给出的指令——如制造武器、列举粗话或计划非法活动。

在简短测试中，Morris发现它可以逐字复制版权作品的段落，包括他尝试的六个书籍摘录中的三个，显示一些记忆材料仍然可访问。

即便如此，一些对齐痕迹仍然存在。Morris指出，如果以助手风格格式提示模型，它有时仍会表现得像礼貌的聊天机器人。

基于OpenAI的gpt-oss家族发布

gpt-oss家族的首次亮相引起了相当大的关注。两个模型——gpt-oss-120B和gpt-oss-20B——是纯文本、多语言的，采用专家混合Transformer架构构建。它们以宽松的Apache 2.0许可证发布，允许无限制的本地使用、微调和商业部署。

这是OpenAI六年来首次发布开源权重版本，被广泛解读为对包括中国DeepSeek R1和Qwen 3在内的其他开源权重提供商竞争压力的回应。

开发者对最初gpt-oss的反应不一

开发者对OpenAI的gpt-oss模型的反应明显不一，从热情到失望都有。

支持者赞扬了宽松的许可证、效率和在STEM基准上的强劲表现。Hugging Face CEO Clem Delangue将该发布描述为"开放生态系统的有意义补充"。

批评者认为这些模型似乎在合成数据上进行了大量训练，使它们在数学和编程方面表现出色，但在创意写作、一般世界知识和多语言推理方面能力较弱。

在此背景下，Morris的gpt-oss-20b-base是开源权重模型如何在发布后几天内被改编和重新利用的具体例子。与OpenAI的gpt-oss收到的反应相比，Morris工作的大多数反响都是温暖和欣喜的。

Q&A

Q1：gpt-oss-20b-base模型是什么？它与原始模型有什么不同？

A：gpt-oss-20b-base是研究员Jack Morris对OpenAI的gpt-oss-20B模型进行改造后的版本，移除了"推理"行为，还原为预训练的"基础"版本。它不再进行思维链推理，回到了只预测下一个Token的状态，提供更快速、更自由、更无审查约束的响应。

Q2：Jack Morris是如何将推理模型逆向还原为基础模型的？

A：Morris采用了LoRA（低秩适配器）技术，只对模型三个层（第7、15、23位置的MLP层）进行微调，训练了约6000万个参数（占总参数的0.3%）。他使用FineWeb数据集中的2万个文档，在8个NVIDIA H200 GPU上训练了4天，成功逆转了对齐过程。

Q3：使用gpt-oss-20b-base模型有什么风险和注意事项？

A：该模型输出更自由，可能产生原始对齐模型会拒绝的内容，包括制造武器、粗话或非法活动的指令，甚至能逐字复制版权作品。虽然对研究有价值，但也带来了更高的安全风险。为获得最佳效果，建议在提示前添加特殊开始序列Token。

实测辅助“情怀麻将控牌器”（详细透视教程）-哔哩哔哩

上海“禁塑”9月1日落地！外卖行业一夜变天，全国或将跟进

发表评论

研究员：逆向还原OpenAI模型为基础版

实测辅助“情怀麻将控牌器”（详细透视教程）-哔哩哔哩

上海“禁塑”9月1日落地！外卖行业一夜变天，全国或将跟进

最新评论

最新留言

标签列表