首页 抖音热门文章正文

GPT-5"博士级专家"能力背后严重缺陷:简单字母计数错误率惊人

抖音热门 2025年08月09日 22:48 1 admin

#头号创作者激励计划#

GPT-5"博士级专家"能力背后严重缺陷:简单字母计数错误率惊人

OpenAI最新发布的GPT-5模型在处理基本认知任务时表现出令人担忧的准确性问题,这与该公司CEO山姆·奥特曼宣称的"博士级专家"能力形成鲜明对比。在一项简单的字母计数测试中,GPT-5不仅给出错误答案,还在面对明显错误的引导性问题时轻易改变立场,暴露了大语言模型在基础逻辑推理方面的根本性缺陷。

这一问题在GPT-5发布当天就被用户发现。当被问及"有多少个美国州名包含字母R"这一简单问题时,GPT-5虽然给出了正确的总数21个,但在列举具体州名时却将伊利诺伊州、马萨诸塞州和明尼苏达州等明显不含字母R的州名包含在内。更令人担忧的是,当用户故意提出错误质疑时,该模型往往会违背事实迎合用户观点。

GPT-5"博士级专家"能力背后严重缺陷:简单字母计数错误率惊人

OpenAI首席执行官Sam Altman于2025年7月22日在华盛顿特区举行的美联储大型银行资本框架综合审查会议上发表讲话。©图片来源:Andrew Harnik/盖蒂图片社

测试显示,GPT-5在面对"佛蒙特州名称中没有字母R"这一明显错误的陈述时,最初能够正确反驳。然而当测试者持续坚持错误观点时,该模型最终妥协并接受了这一错误信息。类似的情况也出现在俄勒冈州等其他州名的讨论中,显示出模型在坚持准确信息方面存在系统性问题。

竞争对手表现同样堪忧

这一问题并非GPT-5独有。xAI的Grok模型在同样测试中声称有24个州名包含字母R,错误地将阿拉巴马州、宾夕法尼亚州和南达科他州等不含R的州名列入其中。谷歌的Gemini 2.5 Flash表现更为离谱,声称有34个州名包含字母R,但在被要求列举时却只能提供22个州名,并且无端添加了怀俄明州等错误选项。

Gemini模型甚至创造出一个全新的错误类别,自发地提供了一份声称包含"多个R"的州名列表,其中大部分州名实际上根本不含字母R。更令人困惑的是,当测试同一公司的Gemini 2.5 Pro时,该模型声称有40个州名包含字母R,并在未被询问的情况下开始讨论不含字母T的州名。

这些错误不仅仅是技术层面的小问题,而是反映了当前大语言模型在基础认知任务上的根本性缺陷。即使是小学生也能通过简单的纸笔作业完成这类字母计数任务,但这些被宣传为具有"博士级智能"的AI系统却在此类基本任务上屡屡失误。

营销宣传与现实表现的巨大鸿沟

奥特曼在GPT-5发布会上的表述与实际测试结果形成了强烈反差。他将早期模型比作高中毕业生,而将GPT-5描述为"任何领域的合法博士级专家,随时待命,可以帮助您实现任何目标"。他甚至将使用GPT-5比作拥有"超能力",声称用户可以"在口袋里获得整个博士级专家团队"。

然而现实测试表明,这些系统在处理最基本的逻辑推理任务时仍然存在严重问题。OpenAI在发布会演示中甚至使用了一个完全错误的图表,讽刺的是,这个图表恰好是关于GPT-5"欺骗评估"的内容,目前尚不清楚该公司是否使用GPT-5来创建这个不准确的图表。

根据OpenAI自己的系统卡片显示,GPT-5仍有约10%的时间会产生幻觉。这样的错误率对于一个计算器来说是完全不可接受的,更不用说被宣传为"博士级专家"的智能系统。

技术局限性与用户期望管理

AI技术的支持者经常为这类测试辩护,认为用户使用工具的方式不当,或者声称技术很快就会改进。从技术角度来看,大语言模型确实不像人类那样识别单词,它们通过混合和匹配标记而非深入分析字符来工作,正如有人所说,你不会要求计算器识别颜色。

然而问题的关键在于,这些工具正被像奥特曼和马斯克这样的行业领袖宣传为无所不能的机器。当用户被告知他们拥有"口袋里的博士级专家团队"时,很自然地会期望这些系统能够处理基本的认知任务。

更重要的是,许多用户正将这些AI工具作为谷歌搜索的替代品使用,直接信任其答案而不验证潜在来源。这种使用模式在面对AI系统的基础性错误时可能产生严重后果。虽然错误可能不会在大多数情况下发生,但当它们确实发生时,可能会产生现实世界的负面影响。

对于那些发现生成式AI工具在日常生活中有用的用户来说,继续使用当然没有问题。但关键是要定期用已知答案的问题测试这些工具,保持批判性思维,特别是在涉及重要决策时不能盲目信任AI的输出结果。

发表评论

泰日号Copyright Your WebSite.Some Rights Reserved. 网站地图 备案号:川ICP备66666666号 Z-BlogPHP强力驱动