金融界2025年8月16日消息,国家知识产权局信息显示,赤峰凯峰商贸有限公司取得一项名为“一种黄小米加工除杂装置”的专利,授权公告号CN2232219...
2025-08-16 0
gpt-oss 对标 o4-mini,整体来说是一个逻辑和数学极强,编程能力一般,写作容易有幻觉,能力上限并没有突破开源 SOTA,但考虑到其参数量级、易于部署且成本较低,还是很强的。至于能否形成开源生态,能否带来长期影响,要看 OpenAI 是否会持续投入开源以及社区的响应程度。
接下来从几个方面来聊:开源,性能,特点。
先说开源。不管 OpenAI 的出发点是真心想改变 CloseAI 的名声,推动大模型开源社区发展,还是被 DeepSeek、Qwen 架到了道德高点,只要 OpenAI 开源了就是好事,论迹不论心,社区口碑很快就会反转。
不过我真心期待 OpenAI 能重新建立起一套开源的原则体系,而不是想一出是一出、用于扭转形象甚至炒作的孤例行为。就踏踏实实地给一个开源的 Roadmap,或者形成半年/季度开源的惯例,哪怕只是上一代甚至上上一代模型,哪怕是弱于当下的开源 SOTA,只要形成惯例,就会给社区一个稳定的预期,这样才会有更多人沉淀在 OpenAI 的生态圈里。
Sam Altman 的推文 里提到了「开源模型赋予用户直接控制权、修改权和隐私保障」,也提到了「开源将加速 AI 领域的研究和产品创新,降低技术门槛」,但并没有给出一个未来会持续开源的预期。
而马斯克「曾经」承诺过 Grok 发版本后会开源上一代模型,Google 做闭源 Gemini 的同时也在坚持更新 Gemma,阿里主打 Qwen 的开源,但也会保留 Qwen-max 作为闭源模型。
预期管理其实蛮重要的。比如我们聊 Qwen,聊 DeepSeek,大家预期肯定会有 Qwen3.5,肯定会有 DeepSeek V4/R2,而且对性能的提升也是有前一代作为参照的。
但 OpenAI 就不是,也许是包括我在内的很多人对 OpenAI 有过多不切实际的期待,内心里都会希望 OpenAI 真的掌握了天顶星科技,期待他们的 GPT-5 能直接拉爆所有 Benchmark,直接把人类带进 AGI 的硅基智能社会。
所以 OpenAI 这次开源的gpt-oss,你要说好不好,自然是好的;但你要说具体有多好,可能跟每个人的心理预期都会有出入。
我再强调一次:一切对模型的主观评价都是从个人预期出发的。DeepSeek 当初发 R1,就是如同石破天惊,因为没有人事先预料到;但反过来 OpenAI 发模型前自己炒作了那么久,自然要承受超出炒作的预期。
具体到gpt-oss,我觉得从前几天大家对 Horizon Alpha/Beta 的评价能看出来:
如果 Horizon 就是gpt-oss,那gpt-oss就是超预期的;如果 Horizon 就是 GPT-5, 那 GPT-5 就是不及预期的。
所以我今天起床后第一件事,就是翻了翻 Timeline,然后没有看到任何一个人说gpt-oss就是 Horizon。所以答案就很明确:不及预期。
比如现在流行用「骑自行车的鹈鹕 SVG」来测试模型,那就先主观比较一波。
Horizon Alpha(OpenRouter),必须承认,Horizon 画的鹈鹕是独一档的:
Claude Opus 4.1:
o4-mini-high(有点抽象了兄弟,但竟然丑萌丑萌的):
gpt-oss-120b-high:
也许这个提示词被大量训练了,所以我换了个 Prompt:
画一个打篮球的皮卡丘
Horizon Beta(OpenRouter):
Claude Opus 4.1:
o4-mini-high,其实还不错:
gpt-oss-120b-high,拒绝生成:
这就引出了一个问题:gpt-oss作为一个开源模型,有着比闭源模型更严苛的安全限制。
这也不难理解,因为闭源模型是受控的,开发商可以用更多技术手段进行安全检查和拦截,实在不行还能拉闸断网下线模型;但开源模型一旦放出去就不受控了,所以需要更多安全对齐。
但问题在于,从大家的反馈来看,gpt-oss的安全对齐已经到了影响使用的地步。
我去翻了翻 HackerNews 和 Reddit ,大家反映的问题集中在:
gpt-oss当然也有优点,以 ArtificialAnalysis 的测评为例 :
gpt-oss-120b 是目前美国开源权重模型中最智能的,但智能水平虽落后于 DeepSeek R1 和 Qwen3 235B,不过在效率方面具有优势。具体来说:
排名示意图:
性价比示意图(靠近左上角,智能/价格的性价比更高):
在测试中,输出的总 tokens 数更少:
总结一下就是:便宜,输出快,同等智能水平下回答问题消耗的 tokens 更少,但能力上限不及于 DeepSeek 和 Qwen 等开源模型。
结合其他人的反馈,oss 应该算是一个逻辑和数学极强,编程能力一般,写作容易有幻觉,易于部署且成本较低的模型。
至于和国产模型的比较,以及会对其他开源模型造成什么影响,我个人还是比较看好 Qwen、K2、GLM 4.5 等国产模型的。还是那句话,多点时间,看看社区的选择吧。
总之,希望gpt-oss是 OpenAI 重启开源战略的开端,如果是那样,应该可以有更多期待;但如果只是孤立地为了应付而开源这一次,那很难形成长久的社区影响力。
有一个点需要注意,gpt-oss开源的是 mxfp4 量化模型,这当然会给普通用户带来便利,但未必会受社区和开发者的认可。
我夸 Qwen 的时候经常会说,Qwen 主打开发者友好,尺寸全,量化全。比如 base model,工具链,量化精度等等,还需要经过开源社区的支持和时间检验。
另一个值得关注的其实是这次开源的 OpenAI Harmony。
Harmony 是一整套关于模型响应格式的角色和通道设计,它将模型的内部思考过程、与工具的交互以及最终的用户回答进行了结构化分离。
任何一个单独的开源模型,自发布之日起就会开始落后。gpt-oss能给社区生态和模型研发带来多大帮助,有待时间检验。 而 OpenAI Harmony 其实是经过 o3 和线上环境验证的最佳实践,有可能会带来比单个模型更长远的影响。
换句话说,从 oss 模型里透露出的 OpenAI 的思路和方法论,也许比模型本身更有价值。
时间仓促写的比较乱,预计明天还会有 GPT-5 以及潜在狙击 GPT-5 的模型,这周还是很值得期待的。
相关文章
金融界2025年8月16日消息,国家知识产权局信息显示,赤峰凯峰商贸有限公司取得一项名为“一种黄小米加工除杂装置”的专利,授权公告号CN2232219...
2025-08-16 0
最近科技圈可热闹了,宇树科技的H1机器人在世界人形机器人运动会上拿了1500米冠军,跑出了6分34秒的好成绩,直接把第二名甩开半条街。创始人王兴兴轻描...
2025-08-16 0
您好:这款游戏是可以开挂的,软件加微信【添加图中微信】确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到其他人...
2025-08-16 0
金融界2025年8月15日消息,国家知识产权局信息显示,盘石软件(上海)有限公司取得一项名为“对网站服务器进行取证的方法及装置”的专利,授权公告号CN...
2025-08-16 0
央广网北京8月15日消息(记者 邵蓝洁)央广财经记者从京东集团获悉,近日,京东正式完成对香港佳宝食品超级市场(以下简称“佳宝”)的收购。同时,京东集团...
2025-08-16 0
亲,这款游戏可以开挂的,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到-人的牌一样。所以很多小伙伴就怀疑这...
2025-08-16 0
发表评论