首页 百科大全文章正文

GPT-5 终于发布:免费可用,定价良心;是 SOTA,但不是 AGI

百科大全 2025年08月08日 09:37 1 admin

简评:GPT-5 王者归来重回榜首,但并不是大家预期的 AGI。最重要的部分先写在前面:

一、可用性:前沿智能的门槛再度降低

所有用户都可以用 GPT-5,免费用户也可以少量体验(超出限额会降级到 GPT-5-mini)。

Sam Altman 兑现了自己 2 月份的承诺,降低了体验前沿智能的门槛,这必须 Respect 一下。而昨天网传的 $200 才能用 GPT-5 证实为 fake news。

二、价格:低于 GPT/o 前代,和 Gemini 2.5 贴身竞争

提供 GPT-5/mini/nano 三种 API(gpt-5-pro 无 API),定价:

  • GPT-5: 输入 $1.25/百万 Token,输出 $10/百万 Token
  • GPT-5 Mini: 输入 $0.25/百万 Token,输出 $2.00/百万 Token
  • GPT-5 Nano: 输入 $0.05/百万 Token,输出 $0.40/百万 Token

这个价格说实话,非常具有竞争力。低于 GPT-4.1/GPT-4o,持平 Gemini 2.5,低于 Claude Sonnet 4,远低于 Claude Opus 4。

GPT-5 终于发布:免费可用,定价良心;是 SOTA,但不是 AGI

这个价格意味着,GPT-5 在与 Gemini 2.5 价格持平的情况下,上移了当前模型的「帕累托曲线」。

三、性能:重回 SOTA,但并没有「划时代」的优势

在 LMArena 上,GPT-5 拿下了所有分类的第一名,以及总榜的第一名:

GPT-5 终于发布:免费可用,定价良心;是 SOTA,但不是 AGI

GPT-5 从 Gemini 2.5 Pro 手里夺回第一名:

GPT-5 终于发布:免费可用,定价良心;是 SOTA,但不是 AGI

但是吧,优势不够大,Gemini 3!Gemini 3!Gemini 3!

四、揭晓前期匿名模型的真实身份

  • LMArena 上的 summit 就是 GPT-5
  • OpenRouter 上的 Horizon 就是 GPT-5 family(但还不确定究竟是 GPT-5 还是 mini)
GPT-5 终于发布:免费可用,定价良心;是 SOTA,但不是 AGI


实测部分。ChatGPT 中还不可用,目前先用 LMArena 中进行 Side by side 测试(vs Gemini 2.5 Pro)。

生成一个骑自行车的鹈鹕的 SVG

GPT-5(跟之前测试的 Horizon 基本一致,算是当前模型里最好的):

GPT-5 终于发布:免费可用,定价良心;是 SOTA,但不是 AGI

Gemini 2.5 Pro(似乎有点太胖了):

GPT-5 终于发布:免费可用,定价良心;是 SOTA,但不是 AGI

画一个打篮球的皮卡丘

GPT-5(特征基本符合):

GPT-5 终于发布:免费可用,定价良心;是 SOTA,但不是 AGI

Gemini 2.5 Pro(表情很灵动,但是吧…):

GPT-5 终于发布:免费可用,定价良心;是 SOTA,但不是 AGI


代码生成能力。在https://gpt-examples.com/上,有很多官方 Prompt 和编程示例:

GPT-5 终于发布:免费可用,定价良心;是 SOTA,但不是 AGI

随便拿其中一个 Prompt 来和 Claude 作比较。

这是 GPT-5 的示例:

GPT-5 终于发布:免费可用,定价良心;是 SOTA,但不是 AGI

这是 Claude Sonnet 4 的结果:

GPT-5 终于发布:免费可用,定价良心;是 SOTA,但不是 AGI

该有的功能也都有,不过蓝紫渐变一眼就知道是 Claude,GPT-5 的页面元素可能更讨喜:

GPT-5 终于发布:免费可用,定价良心;是 SOTA,但不是 AGI


API。

除了像上面那样秀示例 Prompt 和示例成果,方便大家直接 copy Prompt 进行测试外,OpenAI 这次专门写了个使用 GPT-5 的文档。


变体

最佳适用场景

gpt-5

复杂推理、广泛的世界知识以及代码密集型或多步骤的代理任务

gpt-5-mini

成本优化的推理与聊天;平衡速度、成本和能力

gpt-5-nano

高吞吐量任务,特别是简单的指令遵循或分类

API 中的新功能和新参数:

reasoning.effort参数控制模型在生成响应前产生的推理标记数量。早期推理模型如 o3 仅支持lowmediumhigh:其中low侧重响应速度和较少标记,而high则侧重更全面的推理过程。

新的minimal设置在需要最快首字响应时间的场景下仅生成极少量推理标记。相比完全不生成,允许模型在必要时产生少量标记通常能获得更好的性能表现。默认值为medium

from openai import OpenAIclient = OpenAI()response = client.responses.create(    model="gpt-5",    input="How much gold would it take to coat the Statue of Liberty in a 1mm layer?",    reasoning={        "effort": "minimal"    })print(response)

ARC-AGI-2 发了 GPT-5 的成绩,没有突破 Grok 4 的分数,排名第二:

GPT-5 终于发布:免费可用,定价良心;是 SOTA,但不是 AGI


今天的直播翻车比较多,有两处图画错了(发布的博客是没有问题的,但发布会审都不审,实在草台),还有一个演示的案例被挑出来说物理定律不对。

第一处:

GPT-5 终于发布:免费可用,定价良心;是 SOTA,但不是 AGI

正确的图:

GPT-5 终于发布:免费可用,定价良心;是 SOTA,但不是 AGI

第二处(左边 50<47.4):

GPT-5 终于发布:免费可用,定价良心;是 SOTA,但不是 AGI

正确的图:

GPT-5 终于发布:免费可用,定价良心;是 SOTA,但不是 AGI

第三处错误,关于演示的飞机机翼升力:

GPT-5 终于发布:免费可用,定价良心;是 SOTA,但不是 AGI


总结一下:

GPT-5 综合能力确实目前最强,考虑可用性和性价比,可以说是目前最好用的模型,但,优势幅度谈不上遥遥领先。

但是 ARC-AGI-2 输 Grok 4,编程能力未必能稳赢 Claude 4;写作风格又比较看用户的个人主观爱好(比如我就喜欢之前的 Grok 3 和现在的 Gemini 2.5 Pro,已经有大概 3 个月不把 ChatGPT 作为主力了)。

不管怎么说,GPT-5 终于发布了。我觉得还是有一点点预期落空,没有想象中那么跨代,更像是一个融合了 GPT-4o 和 o3,控制了幻觉,更新了数据集,跟上了当前第一梯队能力的模型。

当然了,刚刚发布,还需要多用、多比较、多看社区反馈,才知道 GPT-5 究竟好不好用。

发表评论

泰日号Copyright Your WebSite.Some Rights Reserved. 网站地图 备案号:川ICP备66666666号 Z-BlogPHP强力驱动