GPT-5 系列模型正式发布，是否达到了类似 GPT-3 到 GPT-4 的提升？

抖音快讯 2025年08月08日 23:17 1 admin

GPT-5 虽然不是 AGI 水平，但比起 GPT-4-20240314 还是进步巨大的吧（狗头）。

说正经的，大家之所以会觉得「GPT-4 到 5」没有当初「GPT-3 到 4」那种惊艳感，我觉得最主要的原因就是预期管理。当然，这怪不得别人，毕竟是 OpenAI 自己营销炒作在前，享受了前期营销的好处，就要承受不及预期的骂名。

核心观点：GPT-5 本身是优秀的，也确实是现在的 SOTA，但确实没有达到预期。

至于 GPT-5 vs GPT-4 算不算划代，具体来说：

第一，被拉来作比较的并不是 GPT-4 初代版本，而是 o3 + GPT-4.5

GPT-4 在 2023 年 3 月的时间节点上，确实展现出了划时代的进步。但比较的对象是 GPT-3.5。

但要注意，大家现在比较 GPT-5 和 GPT-4 的时候，比的可不是 20240314 版的 GPT-4，那个版本的 GPT-4 做不对数学数不清 R。

在这两年多的时间里，GPT 经历了多次的小步迭代，就不说挂日期后缀的小版本，单说 GPT-4o、o1、o3、o4-mini、GPT-4.1、GPT-4.5。

所以大家现在对 ChatGPT 的认知已经是 o3 + GPT-4.5，那说实话，GPT-5 只是做了融合和增量更新，能力上限的提升幅度不大。

GPT-5 内置了模型选择的路由：

GPT-5 系列模型正式发布，是否达到了类似 GPT-3 到 GPT-4 的提升？

和前代模型的对应关系可以看作：

所以夸的人说 GPT-5 降低了用户挑选模型的心智，这也是没啥好吹的了…那我还说 GPT-4 和 o3 分开设置能让用户根据需求精确选择呢。

不过说到底，如果拿 GPT-5 和初代 GPT-4 相比，多了推理能力（Q* -> Strawberry -> o1 -> 能力融合进 GPT-5），多了多模态能力。

第二，GPT-4 当初没有外部竞争者，现在则有 Gemini、Claude，甚至开源的 Qwen 等一众对手

这是当前主流模型的「Elo 分数 - 价格」分布图：

可以看到，GPT-5 相较于 Gemini 几乎是在同等价格水平的前提下，提高了分数，向上平移了前沿模型的「帕累托曲线」。

GPT-5 能在所有细分领域刷分刷到第一，也证明肯定是有点东西的。

问题在于，GPT-3.5 到 GPT-4 时，市场没有竞品，自己打自己，甚至有种运动员自己是裁判员的感觉，整个市场都是由 OpenAI 来调教的，OpenAI 说要做 Chat，大家就都做 Chat，OpenAI 说要 RLFH，大家就都 RLFH。

现在用户选择多了，Gemini、Claude、Qwen、DeepSeek 都有一批自己的粉丝，即便 GPT-5 刷到了 SOTA，在优势不那么充分的情况下，并不足以让大家切换主力模型。

第三，一切都关乎预期。

GPT-5 发布前，OpenAI 给大家营销出来的幻觉是「feel the AGI！」各路真假掺半的消息，Sam Altman 又是震惊又是吓得坐在椅子上，发出来以后大家不免觉得「就这？」

当初 GPT-3.5 让大家第一次体验到 ChatGPT 的对话能力，大家还对大模型能力和场景没什么清晰概念的时候，GPT-4 直接扔出来，就是划代的。
当初 DeepSeek V2.5 距离 GPT-4 差距还比较大，大家从来没有预期「国产」「开源」模型能打 o1 的时候，DeepSeek V3/R1 直接扔出来，就是划代的。

但现在，大众对模型已经审美疲劳，甚至对模型的炒作都已经极度厌倦，SOTA 模型的能力已经足以满足大多数人的需求。

所以我前几天说过这样的话：

包括我在内的很多人对 OpenAI 有过多不切实际的期待，内心里都会希望 OpenAI 真的掌握了天顶星科技，期待他们的 GPT-5 能直接拉爆所有 Benchmark，直接把人类带进 AGI 的硅基智能社会。 一切对模型的主观评价都是从个人预期出发的。所以 OpenAI 发布的模型，你要说好不好，自然是好的；但你要说具体有多好，可能跟每个人的心理预期都会有出入。

但仔细想想，这也只是少数「硬核用户」以及自媒体渲染下的苛求。Sam Altman 有句话说的是对的，「在这个世界上，绝大多数人连 GPT-4o 级的模型都还没有体验过。」