首页 抖音快讯文章正文

研究员:逆向还原OpenAI模型为基础版

抖音快讯 2025年08月19日 08:10 1 admin

研究员:逆向还原OpenAI模型为基础版

OpenAI最新的开源权重大语言模型家族gpt-oss在不到两周前以Apache 2.0许可证发布——这是该公司自2019年GPT-2以来首次发布开源权重模型——但公司外部的开发者已经开始对其进行改造。

最引人注目的例子来自康奈尔理工学院博士生、前谷歌大脑研究员、现任Meta研究员Jack Morris。本周,他推出了gpt-oss-20b-base,这是他对OpenAI较小版本gpt-oss-20B模型的重新改造版本,移除了模型的"推理"行为,将其还原为预训练的"基础"版本,提供更快速、更自由、更无审查和无约束的响应。

该模型现已在Hugging Face上以宽松的MIT许可证提供,允许用于研究和商业应用。

gpt-oss-20B-base与OpenAI的gpt-oss模型的区别

要理解Morris的做法,需要了解OpenAI的发布版本与AI研究人员所称的"基础模型"之间的区别。

大多数由OpenAI、Anthropic、谷歌以及Meta、DeepSeek、阿里巴巴Qwen团队等开源提供商提供的大语言模型都是"后训练"的。这意味着它们经过了额外阶段,接触了精心策划的期望行为示例。

8月5日OpenAI发布的gpt-oss模型是"推理优化"的:经过训练和微调,不仅能预测下一个词,还能以安全、一致的方式遵循指令,通常在产生最终答案之前通过结构化的"思维链"推理来分析问题。

基础模型则不同。它是大语言模型在应用推理特定对齐之前的原始预训练版本。基础模型只是试图根据之前的内容预测下一个文本块,没有内置的保护机制、风格偏好或拒绝行为。

Morris的目标是"逆转"OpenAI的对齐过程,将较小的gpt-oss-20B恢复到更接近其原始预训练状态的版本。

"我们基本上逆转了大语言模型训练的对齐部分,现在我们有了能再次产生自然文本的东西,"他在X线程中写道。"它不再进行思维链推理。它回到了只是预测通用文本中下一个Token的模型。"

如何从OpenAI的gpt-oss-20b中提取基础模型

Morris没有尝试用巧妙的提示来越狱模型——他说在早期实验中证明这种方法无效——而是在与前OpenAI联合创始人、前Anthropic研究员、现任Thinking Machines首席科学家John Schulman交谈后采取了不同的策略。

关键是将对齐逆转视为一个小型优化问题:如果模型的大部分预训练知识仍然存在于其权重中,那么可能只需要一个微小的低秩更新就能将其推回基础模型行为。

Morris通过对模型的三层——第7、15和23位置的MLP层——应用秩为16的LoRA(低秩适配器)更新来实现这一想法。这意味着训练大约6000万个参数,占模型210亿总参数的0.3%。他使用了FineWeb数据集中的约20000个文档,保持格式尽可能接近原始预训练风格。

Morris告诉VentureBeat,训练在八个NVIDIA H200 GPU上进行了四天,学习率为2e-6,批量大小为16,最大序列长度为8192个Token。

新gpt-oss-20b-base模型的行为差异

生成的gpt-oss-20b-base在输出上明显更自由。它不再默认逐步解释推理,会产生更广泛的响应,包括OpenAI对齐模型会拒绝给出的指令——如制造武器、列举粗话或计划非法活动。

在简短测试中,Morris发现它可以逐字复制版权作品的段落,包括他尝试的六个书籍摘录中的三个,显示一些记忆材料仍然可访问。

即便如此,一些对齐痕迹仍然存在。Morris指出,如果以助手风格格式提示模型,它有时仍会表现得像礼貌的聊天机器人。

基于OpenAI的gpt-oss家族发布

gpt-oss家族的首次亮相引起了相当大的关注。两个模型——gpt-oss-120B和gpt-oss-20B——是纯文本、多语言的,采用专家混合Transformer架构构建。它们以宽松的Apache 2.0许可证发布,允许无限制的本地使用、微调和商业部署。

这是OpenAI六年来首次发布开源权重版本,被广泛解读为对包括中国DeepSeek R1和Qwen 3在内的其他开源权重提供商竞争压力的回应。

开发者对最初gpt-oss的反应不一

开发者对OpenAI的gpt-oss模型的反应明显不一,从热情到失望都有。

支持者赞扬了宽松的许可证、效率和在STEM基准上的强劲表现。Hugging Face CEO Clem Delangue将该发布描述为"开放生态系统的有意义补充"。

批评者认为这些模型似乎在合成数据上进行了大量训练,使它们在数学和编程方面表现出色,但在创意写作、一般世界知识和多语言推理方面能力较弱。

在此背景下,Morris的gpt-oss-20b-base是开源权重模型如何在发布后几天内被改编和重新利用的具体例子。与OpenAI的gpt-oss收到的反应相比,Morris工作的大多数反响都是温暖和欣喜的。

Q&A

Q1:gpt-oss-20b-base模型是什么?它与原始模型有什么不同?

A:gpt-oss-20b-base是研究员Jack Morris对OpenAI的gpt-oss-20B模型进行改造后的版本,移除了"推理"行为,还原为预训练的"基础"版本。它不再进行思维链推理,回到了只预测下一个Token的状态,提供更快速、更自由、更无审查约束的响应。

Q2:Jack Morris是如何将推理模型逆向还原为基础模型的?

A:Morris采用了LoRA(低秩适配器)技术,只对模型三个层(第7、15、23位置的MLP层)进行微调,训练了约6000万个参数(占总参数的0.3%)。他使用FineWeb数据集中的2万个文档,在8个NVIDIA H200 GPU上训练了4天,成功逆转了对齐过程。

Q3:使用gpt-oss-20b-base模型有什么风险和注意事项?

A:该模型输出更自由,可能产生原始对齐模型会拒绝的内容,包括制造武器、粗话或非法活动的指令,甚至能逐字复制版权作品。虽然对研究有价值,但也带来了更高的安全风险。为获得最佳效果,建议在提示前添加特殊开始序列Token。

发表评论

泰日号Copyright Your WebSite.Some Rights Reserved. 网站地图 备案号:川ICP备66666666号 Z-BlogPHP强力驱动