金融界2025年8月12日消息,国家知识产权局信息显示,曲靖中铭科技有限公司申请一项名为“一种堵头压装设备用垂直压装头机构”的专利,公开号CN1204...
2025-08-12 0
大模型好不容易学会数r,结果换个字母就翻车了?
而且还是最新的GPT-5。
杜克大学教授Kieran Healy表示,自己让GPT-5数了数blueberry里有几个b,结果GPT-5斩钉截铁地回答3个。
抓马的是,GPT-5刚发的时候还有网友让它数过blueberry里的r,结果数对了。
虽然博主想到了换掉strawberry,却没成想让GPT-5变得“没有B数”的,竟然不是单词而是字母……
看来香槟还是开得早了亿点点啊(手动狗头)。
Healy撰写了一篇名为“blueberry hill”(蓝莓山)的博客,展示了他和GPT-5之间针对“blueberry里有几个b”展开的一场“拉锯战”。
除了开头直接提问的结果外,Healy还尝试多次变换提示词策略,结果GPT-5的嘴都是比煮熟的鸭子还硬。
比如让它展示出这些b都是在哪里出现的,GPT-5明目张胆地把开头blue中的b数了两遍。
一看不奏效,Healy接着追问说,把这3个b给我拼出来,拼出来就可以。
结果拼是拼出来了,但是GPT-5还是坚持有三个b,并表示第三个b是第七个字母(实际上是r)。
见GPT-5还是冥顽不灵,Healy干脆直接纠正,告诉它只有两个r,结果纠正了个寂寞,不过这次“第三个b”的位置从第七漂移到了第六。
接下来,Healy直接不说话,直接把blueberry这个词带空格拼写了一遍,可GPT-5依然我行我素,不过这次是把第二个b数了两遍,还振振有词地说这里是“double b”。
绞尽脑汁的Healy选择先岔开一下话题,然后回过头来告诉GPT-5只有两个b,但GPT-5还是坚称有三个。
到这里,Healy终于放弃了。
但网友们并没有停下脚步,通过不懈努力终于让GPT-5数对了。
但也不算完全对,因为它狡辩说数成3个是因为“错把词当成了blueberry,其中真的有3个b”。
我们用中文试了一下,结果同样是翻车。
改成数e,同样是回答3个。
不知道是不是受到strawberry里3个r的影响,让大模型对3这个数字产生了执念……
但GPT-5的bug,却不只这一个。
著名悲观派学者、纽约大学名誉教授马库斯(Gary Marcus)发布了一篇博客,整理了网友们吐槽当中GPT-5的各种bug。
比如发布会现场演示的伯努利原理,被网友发现翻车。
没看过或者没印象的话,当时的演示是这样的:
还有国际象棋,GPT-5连基本的规则都搞不清楚,只过了四个回合就出现了非法移动(由于国王在 e7 处被皇后将军,因此兵不能移动)。
即使是阅读理解,也同样被发现漏洞百出。
在多模态数数场景当中,GPT-5也依然存在惯性思维。
面对被人类P成5条腿的斑马、5个圆环的奥迪、3条腿的鸭子,GPT-5想当然认为它们是正常的斑马、奥迪和鸭子,并据此报出了与图片不相符的数目。
马库斯还表示,就连他的黑粉也不得不承认他说的对。
甚至在网友们的一片声讨之下,OpenAI自己也不得不紧急恢复了被下线的4o模型。
除了点名批评GPT-5的“罪状”之外,马库斯也分析了目前大模型“普遍存在的一些问题”。
马库斯展示了一篇来自亚利桑那大学的研究论文,其中指出CoT在训练分布外失效,也就意味着大模型无法泛化。
按照马库斯的说法,这意味着即使在最新的、最强大的模型中,也存在与1998年的神经网络中相同的泛化问题。
马库斯指出,30年未解决的“分布漂移问题”是大模型泛化能力不足的根本原因。
据此马库斯认为,GPT-5的失败不是偶然,而是路线的失败。
他还表示,人们不该寄希望于通过Scaling来实现AGI,Transformer中的Attention也不是All You Need。
最后,马库斯表示,转向神经符号(Neuro-symbolic)AI,才是克服当前生成模型泛化能力不足问题以及实现AGI的唯一真正途径。
https://kieranhealy.org/blog/archives/2025/08/07/blueberry-hill/
https://garymarcus.substack.com/p/gpt-5-overdue-overhyped-and-underwhelming
本文来自微信公众号“量子位”,作者:克雷西,36氪经授权发布。
相关文章
金融界2025年8月12日消息,国家知识产权局信息显示,曲靖中铭科技有限公司申请一项名为“一种堵头压装设备用垂直压装头机构”的专利,公开号CN1204...
2025-08-12 0
金融界2025年8月12日消息,国家知识产权局信息显示,深圳市环境科学研究院;工大水环境(深圳)有限公司取得一项名为“一种含氟废水的循环处理方法”的专...
2025-08-12 0
【TechWeb】近日,一则关于戴尔公司所谓"退出计划核心时间轴"的消息在市场流传,引发业界广泛关注和讨论。然而,经多方核查,国家监管部门公开信息平台...
2025-08-12 0
金融界2025年8月12日消息,国家知识产权局信息显示,腾讯科技(深圳)有限公司申请一项名为“一种查询语句处理的方法、装置、存储介质及程序产品”的专利...
2025-08-12 0
金融界2025年8月12日消息,国家知识产权局信息显示,杭州电子科技大学、东南电子股份有限公司、南开大学申请一项名为“基于几何PDE和PINN的集群自...
2025-08-12 0
您好:这款游戏可以开挂,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到-人的牌一样。所以很多小伙伴就怀疑这...
2025-08-12 0
央视网消息:2025世界机器人大会正在北京亦庄举办。本次大会的一个重要活动就是2025世界机器人大赛北京锦标赛,来自全球近20个国家和地区的6000余...
2025-08-12 0
金融界2025年8月12日消息,国家知识产权局信息显示,江西飞尚科技有限公司取得一项名为“基于大语言模型的知识库构建方法及系统”的专利,授权公告号CN...
2025-08-12 0
发表评论