OpenAI 开源的 gpt-oss 能力如何？会对国产开源模型造成影响吗？

抖音快讯 2025年08月16日 18:06 1 admin

gpt-oss 对标 o4-mini，整体来说是一个逻辑和数学极强，编程能力一般，写作容易有幻觉，能力上限并没有突破开源 SOTA，但考虑到其参数量级、易于部署且成本较低，还是很强的。至于能否形成开源生态，能否带来长期影响，要看 OpenAI 是否会持续投入开源以及社区的响应程度。

接下来从几个方面来聊：开源，性能，特点。

先说开源。不管 OpenAI 的出发点是真心想改变 CloseAI 的名声，推动大模型开源社区发展，还是被 DeepSeek、Qwen 架到了道德高点，只要 OpenAI 开源了就是好事，论迹不论心，社区口碑很快就会反转。

不过我真心期待 OpenAI 能重新建立起一套开源的原则体系，而不是想一出是一出、用于扭转形象甚至炒作的孤例行为。就踏踏实实地给一个开源的 Roadmap，或者形成半年/季度开源的惯例，哪怕只是上一代甚至上上一代模型，哪怕是弱于当下的开源 SOTA，只要形成惯例，就会给社区一个稳定的预期，这样才会有更多人沉淀在 OpenAI 的生态圈里。

Sam Altman 的推文里提到了「开源模型赋予用户直接控制权、修改权和隐私保障」，也提到了「开源将加速 AI 领域的研究和产品创新，降低技术门槛」，但并没有给出一个未来会持续开源的预期。

而马斯克「曾经」承诺过 Grok 发版本后会开源上一代模型，Google 做闭源 Gemini 的同时也在坚持更新 Gemma，阿里主打 Qwen 的开源，但也会保留 Qwen-max 作为闭源模型。

预期管理其实蛮重要的。比如我们聊 Qwen，聊 DeepSeek，大家预期肯定会有 Qwen3.5，肯定会有 DeepSeek V4/R2，而且对性能的提升也是有前一代作为参照的。

但 OpenAI 就不是，也许是包括我在内的很多人对 OpenAI 有过多不切实际的期待，内心里都会希望 OpenAI 真的掌握了天顶星科技，期待他们的 GPT-5 能直接拉爆所有 Benchmark，直接把人类带进 AGI 的硅基智能社会。

所以 OpenAI 这次开源的gpt-oss，你要说好不好，自然是好的；但你要说具体有多好，可能跟每个人的心理预期都会有出入。

我再强调一次：一切对模型的主观评价都是从个人预期出发的。DeepSeek 当初发 R1，就是如同石破天惊，因为没有人事先预料到；但反过来 OpenAI 发模型前自己炒作了那么久，自然要承受超出炒作的预期。

具体到gpt-oss，我觉得从前几天大家对 Horizon Alpha/Beta 的评价能看出来：

如果 Horizon 就是gpt-oss，那gpt-oss就是超预期的；如果 Horizon 就是 GPT-5，那 GPT-5 就是不及预期的。

所以我今天起床后第一件事，就是翻了翻 Timeline，然后没有看到任何一个人说gpt-oss就是 Horizon。所以答案就很明确：不及预期。

比如现在流行用「骑自行车的鹈鹕 SVG」来测试模型，那就先主观比较一波。

Horizon Alpha（OpenRouter），必须承认，Horizon 画的鹈鹕是独一档的：

Claude Opus 4.1：

o4-mini-high（有点抽象了兄弟，但竟然丑萌丑萌的）：

gpt-oss-120b-high：

也许这个提示词被大量训练了，所以我换了个 Prompt：

画一个打篮球的皮卡丘

Horizon Beta（OpenRouter）：

Claude Opus 4.1：

o4-mini-high，其实还不错：

gpt-oss-120b-high，拒绝生成：

这就引出了一个问题：gpt-oss作为一个开源模型，有着比闭源模型更严苛的安全限制。

这也不难理解，因为闭源模型是受控的，开发商可以用更多技术手段进行安全检查和拦截，实在不行还能拉闸断网下线模型；但开源模型一旦放出去就不受控了，所以需要更多安全对齐。

但问题在于，从大家的反馈来看，gpt-oss的安全对齐已经到了影响使用的地步。

我去翻了翻 HackerNews 和 Reddit ，大家反映的问题集中在：

事实错误与幻觉：用户普遍反映 gpt-oss 幻觉率较高，容易出现事实错误，模型会编造很多不存在的信息。
编码能力不够强：虽然官方强调了编码能力，但有用户反馈，gpt-oss 表现不如 qwen3-coder-30b。后者能够一次成功，而 gpt-oss 的代码存在 bug 且无法正常工作。
过度审查：是社区中抱怨最多的问题之一。「它是我用过的第一个因为『违反安全政策』而拒绝回答关于自身技术问题的模型」、「太监了，废了」。这种「过度对齐」似乎让模型在很多无害的创作和交流场景中也变得束手束脚。
多语言能力：尽管模型卡中展示了 MMMLU 多语言测试的不错成绩，但有德语用户反馈，gpt-oss 的德语水平甚至不如 Gemma 或 Mistral，远未达到 ChatGPT 那样流畅自然的程度。

gpt-oss当然也有优点，以 ArtificialAnalysis 的测评为例：

gpt-oss-120b 是目前美国开源权重模型中最智能的，但智能水平虽落后于 DeepSeek R1 和 Qwen3 235B，不过在效率方面具有优势。具体来说：

体积与部署：gpt-oss 模型采用 MXFP4 精度格式，120B 版本仅 60.8GB，20B 版本仅 12.8GB。这意味着 120B 模型可在单张 NVIDIA H100 显卡上原生运行，20B 模型则能轻松部署于显存 >16GB 的消费级 GPU 或笔记本。
性能表现：120B 模型超越 o3-mini 但落后于 o4-mini 和 o3，成为单卡 H100 可运行的最智能模型，20B 则是消费级 GPU 的最优选择。评估显示两者无明显能力短板。
架构特性：采用标准 MoE 设计，每 token 生成选择 top4 专家。120B 含 36 层，20B 含 24 层，均使用 Rotary 嵌入和 YaRN 技术实现 128k 上下文窗口。120B 前向传播仅激活 4.4% 参数（20B为17.2%），暗示 OpenAI 认为大模型更适合高稀疏度。业界普遍推测 GPT-4 后主流实验室顶级模型均为稀疏 MoE 架构。
定价：120B 模型输入/输出 token 均价 0.15/0.15/0.69/百万，20B 为0.08/0.08/0.35，120B 比 OpenAI 私有 API（o4-mini1.1/1.1/4.4）便宜近10倍。
许可证：Apache 2.0开源协议。

排名示意图：