GPT-5发布即翻车！奥特曼深夜承认：图表出错，模型变笨。用户只想用回GPT-4o

抖音热门 2025年08月09日 15:17 1 admin

大数据文摘出品

OpenAI在8月7日正式推出新一代旗舰大模型GPT-5。

据说，这是该公司自成立以来最受关注的一次产品迭代，被宣称是“最强大、最智能”的语言模型，能够在推理、创意生成和多模态理解等多个方面实现质的飞跃。

然而，就在发布后的不到24小时内，OpenAI首席执行官山姆·奥特曼就不得不面对现实。

他在Reddit的AMA问答和X平台的回应中承认，这次发布过程 问题频发，远比预期更坎坷。

核心问题之一来自新上线的自动“路由器”功能。这套系统会在用户发出指令后，自动将请求分配给GPT-5的四个变体之一：gpt-5-main / gpt-5-main-mini 与 gpt-5-thinking / gpt-5-thinking-mini，并在复杂任务中触发“思考模式”。

API 还有 gpt-5-thinking-nano；ChatGPT 里有一种并行推理设置称 gpt-5-thinking-pro。

理论上，这能让用户始终得到最匹配的计算能力。但在发布当日， 核心的自动切换功能宕机了数小时，导致大量用户接入的模型并非预期版本，体验直接“降级”。这让GPT-5在不少用户眼中“显得很笨”。

更糟的是，OpenAI在直播发布会中展示的性能图表出现明显错误。

比如这个52.8大于69.1等于30.8

奥特曼解释称，这是由于团队成员工作至深夜，极度疲惫之下出现的“人为失误”。他补充说明，尽管直播出现差错，但配套发布的博客文章和系统卡片中的数据是准确的。

用户界面的变化也引发混乱。新版ChatGPT中，一些用户发现无法再选择旧的GPT-4o，这让很多依赖其稳定性的长期订阅者（包括小编）措手不及。

面对大量投诉，OpenAI紧急调整策略，宣布ChatGPT Plus用户可继续使用GPT-4o，以便公司在收集更多性能对比数据后再决定下一步。

奥特曼在Reddit上回应称，公司会在未来的更新中 提高模型切换的透明度，并允许用户手动触发“思考模式”，而不是完全依赖后台判断。他承认，用户体验被忽视是此次发布的一个严重问题。

01 真实体验与官方宣传落差

按照OpenAI的内部测试结果，GPT-5在各项基准上领先于市面上其他大模型。但当真实用户开始大规模使用时，这些光鲜的数字迅速被质疑。

上线后的第一天，社交平台上充斥着用户吐槽GPT-5在数学、逻辑、编程等基础任务上的低级错误。一位推特网名为Colin Fraser分享了截图：当被问到“8.888循环是否等于9”时，GPT-5给出了错误答案。另一位用户在测试方程“5.9 = x + 5.11”时，同样收到了错误解答。

一些用户在数学文字题中发现，GPT-5要么计算错误，要么无法理解题意。而在代码调试中，它甚至无法正确修复自己制作的演示文稿图表的错误数据。

在开发者圈子里，批评声音同样密集。

多位程序员对比发现，GPT-5在“一次性”完成特定编程任务的能力，反而落后于竞争对手Anthropic的Claude Opus 4.1。这种差距不仅存在于复杂推理任务，甚至在简单的脚本编写中也能明显感知。

安全领域的反馈更让人担忧。

网络安全公司SPLX测试后指出，GPT-5依旧容易受到提示注入（Prompt Injection）和混淆逻辑攻击。这意味着，攻击者仍有机会通过巧妙构造的输入绕过安全限制，获得敏感信息或让模型执行非预期操作。

显然，我们未预料到，OpenAI会在未充分征得用户同意的情况下直接替换旧版本，并且在性能尚未稳定的情况下全面推送新模型。

03 庞大用户量带来的压力与竞争

尽管GPT-5的首日表现不尽如人意，OpenAI依然拥有令人难以忽视的规模优势。ChatGPT的 周活跃用户已达到7亿，远超其他生成式AI平台。

奥特曼透露，GPT-5上线仅24小时内，API调用量就翻倍，直接给后台带来了额外压力。这种激增在一定程度上加剧了平台的不稳定，也让运维团队调整限额与路由以稳定体验。

为了安抚高付费用户，OpenAI宣布将ChatGPT Plus的调用速率限制提升一倍，并承诺持续优化基础设施，确保在高峰时段也能稳定响应。同时，公司正在收集用户在不同版本上的交互数据，用于判断GPT-5在真实场景中的优劣势。

显然，OpenAI此刻面临的挑战，不仅是修复技术问题，还要重建用户对其产品节奏与决策流程的信任。如果GPT-5不能在接下来的几周内通过更新兑现“质的飞跃”的承诺，这次发布可能会被视为一次代价高昂的公关失误。

reddit：

https://www.reddit.com/r/ChatGPT/comments/1mkae1l/gpt5_ama_with_openais_sam_altman_and_some_of_the/?q=%E2%80%9CPeople+were+working+late+and+were+very+tired%2C+and+human+error+got+in+the+way.+A+lot+comes+together+for+a+livestream+in+the+last+hours.%E2%80%9D&type=comments&cId=3ba2c830-41e3-426f-829a-fd7fcc5ce27b&iId=aa80770e-1c54-4e68-83b3-c787514a0947

作者长期关注 AI 产业与学术，欢迎对这些方向感兴趣的朋友添加微信 Q1yezi，共同交流行业动态与技术趋势！