高温炙烤下,新鲜的蔬果仿佛一夜之间就蔫了脾气;连绵的梅雨,让本就挑剔的生鲜食材更易滋生细菌;当下最怕的却是:冰箱满了!化冻了!串味了!结霜了!别让夏日...
2025-08-08 0
界面新闻记者 | 伍洋宇
界面新闻编辑 | 文姝琪
过去几个月,OpenAI没有出现过什么激动人心的好新闻:新模型不再惊艳、重要人才流失,就连斥巨资想要收购的明星创业公司Windsurf,也被谷歌截了胡。
但这些问题还是要回到根本层面来解决,比如说再次发布一个足以受到普遍认可的新模型——这就是GPT-oss在这个节点出现的意义之一。
8月6日凌晨,OpenAI宣布推出开源推理模型Gpt-oss,包含Gpt-oss-120B(激活参数5.1B)和Gpt-oss-20B(激活参数3.6B)两个参数大小,支持上下文128K。值得注意的是,这是OpenAI时隔六年再次开放权重。
从性能表现上来说,Gpt-oss-120B模型在核心推理基准测试中与OpenAI o4-mini几乎持平,Gpt-oss-20B则与OpenAI o3-mini取得类似结果。
就国产模型而言,综合公开数据,两款模型对比DeepSeek-R1、通义千问(Qwen3-235B-A22B)、智谱GLM4.5-Air、月之暗面Kimi K2等,除了个别维度,在AIME24/25、GPQA、MMLU等常规基准测试上普遍表现更好。
不仅如此,Gpt-oss-120B据称能够在单个80GB GPU上运行,Gpt-oss-20B可在仅配备16GB内存的设备上运行,这意味着两款模型或将迅速占领端侧设备本地推理的需求市场。
OpenAI还开门见山说明了两款模型均采用Apache 2.0许可证,也就是既可商用也可改造,基本没有使用限制。
开源决策与性能表现之外,本地部署的高效是Gpt-oss此次赢得业界认可的主要原因。
OpenAI提到,两款模型的权重均可在Hugging Face上免费下载,且在后期训练阶段已原生量化为MXFP4格式——Mixed Format 4-bit Precision,是一种专为大模型推理打造的混合精度量化格式,目的在于保留关键信息的同时,把参数用更聪明的方式压缩成低精度。
对比更为常见的FP16、FP8等,MXFP4能够在接近8-bit量化效果的同时,保留4-bit低精度量化速度快、内存小的特性,综合达成更好的模型性能表现。也就是说,它将一个“满血版”推理模型的本地部署门槛又大幅降低了。
一名AI领域实验室研究人员对界面新闻记者表示,他在本地部署了20B版本的Gpt-oss后,直接替换了同样本地部署的Gemma 3(12B),理由就是前者“快很多”,基本可以每秒输出45个token左右,而Gemma 3的速度在每秒30个token左右。并且在一些基础的思考题上,OpenAI可以给出更标准的答案。
他没有给予Gpt-oss过高的评价,因为现阶段的大模型彼此之间的性能差异已经很小,“谁免费,谁快,我就用谁。”
不过,凭借Gpt-oss这款模型,OpenAI可能还是把DeepSeek-R1出现之后,它在开源世界缺乏的声量弥补了一些回来,也顺带轻轻回击了“CloseAI”这个持续已久的昵称。
复旦大学计算机科学技术学院教授张奇对界面新闻记者表示,根据其内部评测,他认为Gpt-oss在效果层面领先目前的DeepSeek和Qwen,这体现的还是OpenAI对模型的理论理解能力以及工程实现能力。
他同时指出,这也说明了一个问题,即OpenAI还是没有从模型架构上实现巨大突破,而按照现有架构去实现AGI几乎没有可能性。
大模型成为全球科技领域焦点以来,中美之间的闭源模型竞争一直是更核心的话题,直到DeepSeek将开源模型的地位推至新高。而OpenAI在Gpt-oss上的补课,明显对既有局面有所扭转。眼下,国产开源模型可能有新的内功可供学习打磨了。
相关文章
高温炙烤下,新鲜的蔬果仿佛一夜之间就蔫了脾气;连绵的梅雨,让本就挑剔的生鲜食材更易滋生细菌;当下最怕的却是:冰箱满了!化冻了!串味了!结霜了!别让夏日...
2025-08-08 0
新榜讯 新榜消息,8月7日,微信珊瑚安全发布公告,宣布微信将加大力度从严处置传播不良价值观的行为。此次深化治理聚焦以“恋爱技巧”“情感关系”等为幌子,...
2025-08-08 0
金融界2025年8月7日消息,国家知识产权局信息显示,浪潮软件股份有限公司申请一项名为“一种智能标签关联的多维度知识库管理方法和系统”的专利,公开号C...
2025-08-08 0
“推广预算占销售额40%,现在突然被告知超过15%的部分不能抵税了,这生意还怎么做?”在杭州经营服装电商的李总最近焦头烂额。上周,国家市场监管总局发布...
2025-08-08 0
【来源:陕西交通广播】8月7日,西兴高速改扩建项目控制性工程——渭河特大桥顺利合龙,标志着西兴高速改扩建项目控制性工程建设进入了最后的冲刺阶段。合龙现...
2025-08-08 0
鲁大师7月电动两轮车排行榜数据来源于鲁大师智慧实验室,测评的车型均为市面上主流品牌的主流车型。截止目前,鲁大师智能化电动车测评的车型高达250余台,且...
2025-08-08 0
微软周三通报了影响 Exchange Server 混合部署的高严重性漏洞。据微软称,该漏洞编号为CVE-2025-53786,攻击者可以利用该漏洞来...
2025-08-08 0
发表评论