半夜醒来,发现13岁的男孩还跟自己贴在一个被窝里,那一刻的惊吓,比噩梦还真实。“儿大避母”四个字,听起来像老掉牙的规矩,可真撞上了,才懂它背后那股别扭...
2025-08-08 0
简评:GPT-5 王者归来重回榜首,但并不是大家预期的 AGI。最重要的部分先写在前面:
一、可用性:前沿智能的门槛再度降低
所有用户都可以用 GPT-5,免费用户也可以少量体验(超出限额会降级到 GPT-5-mini)。
Sam Altman 兑现了自己 2 月份的承诺,降低了体验前沿智能的门槛,这必须 Respect 一下。而昨天网传的 $200 才能用 GPT-5 证实为 fake news。
二、价格:低于 GPT/o 前代,和 Gemini 2.5 贴身竞争
提供 GPT-5/mini/nano 三种 API(gpt-5-pro 无 API),定价:
这个价格说实话,非常具有竞争力。低于 GPT-4.1/GPT-4o,持平 Gemini 2.5,低于 Claude Sonnet 4,远低于 Claude Opus 4。
这个价格意味着,GPT-5 在与 Gemini 2.5 价格持平的情况下,上移了当前模型的「帕累托曲线」。
三、性能:重回 SOTA,但并没有「划时代」的优势
在 LMArena 上,GPT-5 拿下了所有分类的第一名,以及总榜的第一名:
GPT-5 从 Gemini 2.5 Pro 手里夺回第一名:
但是吧,优势不够大,Gemini 3!Gemini 3!Gemini 3!
四、揭晓前期匿名模型的真实身份
实测部分。ChatGPT 中还不可用,目前先用 LMArena 中进行 Side by side 测试(vs Gemini 2.5 Pro)。
生成一个骑自行车的鹈鹕的 SVG
GPT-5(跟之前测试的 Horizon 基本一致,算是当前模型里最好的):
Gemini 2.5 Pro(似乎有点太胖了):
画一个打篮球的皮卡丘
GPT-5(特征基本符合):
Gemini 2.5 Pro(表情很灵动,但是吧…):
代码生成能力。在https://gpt-examples.com/上,有很多官方 Prompt 和编程示例:
随便拿其中一个 Prompt 来和 Claude 作比较。
这是 GPT-5 的示例:
这是 Claude Sonnet 4 的结果:
该有的功能也都有,不过蓝紫渐变一眼就知道是 Claude,GPT-5 的页面元素可能更讨喜:
API。
除了像上面那样秀示例 Prompt 和示例成果,方便大家直接 copy Prompt 进行测试外,OpenAI 这次专门写了个使用 GPT-5 的文档。
变体 | 最佳适用场景 |
gpt-5 | 复杂推理、广泛的世界知识以及代码密集型或多步骤的代理任务 |
gpt-5-mini | 成本优化的推理与聊天;平衡速度、成本和能力 |
gpt-5-nano | 高吞吐量任务,特别是简单的指令遵循或分类 |
API 中的新功能和新参数:
reasoning.effort参数控制模型在生成响应前产生的推理标记数量。早期推理模型如 o3 仅支持low、medium和high:其中low侧重响应速度和较少标记,而high则侧重更全面的推理过程。
新的minimal设置在需要最快首字响应时间的场景下仅生成极少量推理标记。相比完全不生成,允许模型在必要时产生少量标记通常能获得更好的性能表现。默认值为medium。
from openai import OpenAIclient = OpenAI()response = client.responses.create( model="gpt-5", input="How much gold would it take to coat the Statue of Liberty in a 1mm layer?", reasoning={ "effort": "minimal" })print(response)
ARC-AGI-2 发了 GPT-5 的成绩,没有突破 Grok 4 的分数,排名第二:
今天的直播翻车比较多,有两处图画错了(发布的博客是没有问题的,但发布会审都不审,实在草台),还有一个演示的案例被挑出来说物理定律不对。
第一处:
正确的图:
第二处(左边 50<47.4):
正确的图:
第三处错误,关于演示的飞机机翼升力:
总结一下:
GPT-5 综合能力确实目前最强,考虑可用性和性价比,可以说是目前最好用的模型,但,优势幅度谈不上遥遥领先。
但是 ARC-AGI-2 输 Grok 4,编程能力未必能稳赢 Claude 4;写作风格又比较看用户的个人主观爱好(比如我就喜欢之前的 Grok 3 和现在的 Gemini 2.5 Pro,已经有大概 3 个月不把 ChatGPT 作为主力了)。
不管怎么说,GPT-5 终于发布了。我觉得还是有一点点预期落空,没有想象中那么跨代,更像是一个融合了 GPT-4o 和 o3,控制了幻觉,更新了数据集,跟上了当前第一梯队能力的模型。
当然了,刚刚发布,还需要多用、多比较、多看社区反馈,才知道 GPT-5 究竟好不好用。
相关文章
半夜醒来,发现13岁的男孩还跟自己贴在一个被窝里,那一刻的惊吓,比噩梦还真实。“儿大避母”四个字,听起来像老掉牙的规矩,可真撞上了,才懂它背后那股别扭...
2025-08-08 0
近日,随着犯罪嫌疑人刘某某在青海省西宁市落网,一桩16年前的凶杀案得以告破。2009年9月14日凌晨5点,青海省海西州格尔木市发生一起命案,出租车驾驶...
2025-08-08 0
今天y300t到货了,全新未拆封。到家后把之前买的z8x,z7,y300t同时拿出来作个屏幕对比。图二,三,从左到右分别是z8x,z7,y300t。图...
2025-08-08 0
当学生可以随时随地与AI进行沉浸式情景对话,外语“开口难”能否破解?当教师从机械作业批改中解放,能否创造出更具创意的课堂?当技术打破时空限制,乡村学生...
2025-08-08 0
金融界2025年8月8日消息,国家知识产权局信息显示,无锡爱邦辐射技术有限公司取得一项名为“一种低能电子加速器束下移动设备”的专利,授权公告号CN22...
2025-08-08 0
金融界2025年8月8日消息,国家知识产权局信息显示,OPPO广东移动通信有限公司申请一项名为“图像分量预测方法、编码器、解码器以及存储介质”的专利,...
2025-08-08 0
记者从国家标准委了解到,由我国牵头制定的全球首项鞋类有机溶剂测定国际标准近日正式发布。该项国际标准针对鞋类有机溶剂残留检测这一全球重要课题,依托先进的...
2025-08-08 0
日常通勤,我都会刷短视频、追剧来打发时间。地铁上人挤人,声音又吵,经常听不清耳机里的声音,需要一个能高效降噪的蓝牙耳机,那些卖一千块左右的降噪耳机,我...
2025-08-08 0
发表评论