Gartner：GPT-5 已经到来，但支持真正代理 AI 的基础设施尚未出现

抖音推荐 2025年08月15日 21:53 1 admin

打个比方：美国直到 1956 年之后才出现高速公路，这是艾森豪威尔总统政府所设想的，但保时捷、宝马、捷豹、法拉利等超快、动力强劲的汽车已经存在了几十年。

你可以说人工智能正处于同一个转折点：虽然模型变得越来越强大、性能越来越高、越来越复杂，但它们实现真正的现实世界创新所需的关键基础设施尚未完全建成。

Gartner 杰出副总裁分析师 Arun Chandrasekaran 向 VentureBeat 表示：“我们所做的就是为汽车打造一些非常好的引擎，我们感到非常兴奋，就好像我们拥有了这个功能齐全的高速公路系统一样。”

这导致OpenAI 的 GPT-5等模型能力在某种程度上陷入停滞：虽然这是一个重要的进步，但它只展现出真正代理 AI 的微弱光芒。

人工智能扩展达到极限

算力上限、代币成本上涨以及推理延迟正在重塑企业级 AI。加入我们的专属沙龙，了解顶尖团队如何：

将能源转化为战略优势
构建高效推理以实现实际吞吐量提升
利用可持续的人工智能系统释放有竞争力的投资回报率

“这是一个非常强大的模型，用途非常广泛，在特定领域取得了一些非常好的进展，”钱德拉塞卡兰说道。“但考虑到 OpenAI 过去设定的诸多高期望，我的观点是，这更像是一种渐进式的进步，而非彻底的进步或根本性的改进。”

GPT-5 在三个关键领域有所改进

需要明确的是，根据 Gartner 的说法，OpenAI 在GPT-5方面取得了长足进步，包括编码任务和多模式功能。

钱德拉塞卡兰指出，OpenAI 已转向使 GPT-5 在编码方面“非常出色”，清楚地意识到了人工智能在企业软件工程中的巨大机遇，并瞄准了竞争对手 Anthropic 在该领域的领导地位。

与此同时，Chandrasekaran 指出，GPT-5 在文本以外模式的进步，特别是在语音和图像方面，为企业提供了新的整合机会。

由于工具使用方式的改进，GPT-5 也确实（尽管有些微妙）提升了 AI 代理和编排设计；该模型可以调用第三方 API 和工具，并执行并行工具调用（同时处理多个任务）。然而，Chandrasekaran 指出，这意味着企业系统必须具备在单个会话中处理并发 API 请求的能力。

GPT-5 中的多步骤规划允许更多业务逻辑驻留在模型本身中，从而减少了对外部工作流引擎的需求，并且其更大的上下文窗口（免费用户 8K，Plus 每月 20 美元，32K，Pro 每月 200 美元，128K）可以“重塑企业 AI 架构模式”，他说。

这意味着，之前依赖复杂的检索增强生成 (RAG) 流程来应对上下文限制的应用程序，现在可以将更大的数据集直接传递给模型，并简化一些工作流程。但这并不意味着 RAG 已经过时；“只检索最相关的数据仍然比始终发送大量输入更快、更经济，”Chandrasekaran 指出。

Gartner 看到了向检索不太严格的混合方法的转变，开发人员使用 GPT-5 来处理“更大、更混乱的环境”，同时提高效率。

在成本方面，GPT-5“显著”降低了 API 使用费；最高成本为每 100 万个输入代币 1.25 美元，每 100 万个输出代币 10 美元，与 Gemini 2.5 等模型相当，但远低于 Claude Opus。然而，GTP-5 的输入/输出价格比高于早期模型，Chandrasekaran 建议 AI 领导者在考虑将 GTP-5 用于高代币使用场景时应考虑到这一点。

告别之前的 GPT 版本（某种程度上）

最终，GPT-5 旨在取代GPT-4o和 O 系列（它们最初已停产，后来由于用户异议，OpenAI 又重新推出了一些）。Gartner 指出，三种模型尺寸（专业版、迷你版、纳米版）将允许架构师根据成本和延迟需求对服务进行分层；简单的查询可以由较小的模型处理，而复杂的任务则由完整的模型处理。

然而，输出格式、内存和函数调用行为的差异可能需要代码审查和调整，并且由于 GPT-5 可能会使一些以前的解决方法过时，开发人员应该审核他们的提示模板和系统指令。

通过最终淘汰之前的版本，“我认为 OpenAI 试图做的就是将这种复杂性从用户身上抽象出来，”钱德拉塞卡兰说。“我认为，我们通常不是做出这些决定的最佳人选，有时我们甚至可能会做出错误的决定。”

逐步淘汰背后的另一个事实是：“我们都知道 OpenAI 存在容量问题，”他说道，因此该公司已与微软、甲骨文（星际之门项目）、谷歌等公司建立了合作伙伴关系，以提供计算能力。运行多代模型需要多代基础设施，这会带来新的成本影响和物理限制。

采用 GPT-5 的新风险和建议

OpenAI 声称，与之前的模型相比，GPT-5 中的幻觉率降低了高达 65%；Gartner 指出，这有助于降低合规风险，使模型更适合企业用例，其思路链 (CoT) 解释支持可审计性和监管一致性。

与此同时，较低的幻觉率以及 GPT-5 的高级推理和多模态处理能力可能会加剧滥用，例如高级诈骗和网络钓鱼的生成。分析师建议，即使采样量减少，关键工作流程仍需接受人工审核。

该公司还建议企业领导者：

在关键任务用例中试行和基准测试 GPT-5，与其他模型进行并行评估，以确定准确性、速度和用户体验方面的差异。
监控诸如氛围编码之类的有数据泄露风险的做法（但不要冒犯它或冒缺陷或护栏失效的风险）。
修改治理政策和指南以解决新的模型行为、扩展上下文窗口和安全完成，并校准监督机制。
试验工具集成、推理参数、缓存和模型大小来优化性能，并使用内置动态路由来确定适合正确任务的正确模型。
审计和升级 GPT-5 扩展功能的计划。这包括验证 API 配额、审计跟踪和多模态数据管道，以支持新功能和更高的吞吐量。严格的集成测试也至关重要。

代理不仅需要更多的计算；他们还需要基础设施

毫无疑问，代理人工智能是“当今的超级热门话题”，钱德拉塞卡兰指出，并且是Gartner 2025年通用人工智能技术成熟度曲线中值得投资的领域之一。与此同时，这项技术也达到了Gartner所谓的“预期膨胀顶峰”，这意味着它因早期的成功案例而获得了广泛的宣传，从而引发了不切实际的预期。

这一趋势之后通常会出现 Gartner 所称的“幻灭低谷”，即由于实验和实施未能实现预期效果，人们的兴趣、热情和投资逐渐冷却（请记住：自 20 世纪 80 年代以来，已经经历过两次值得注意的人工智能寒冬）。

“很多供应商都在夸大产品的实际功能，”钱德拉塞卡兰说，“就好像他们把产品定位成生产就绪、企业级就绪，并且能在很短的时间内带来商业价值。”

然而，他指出，实际上，产品质量与预期之间存在巨大差距。Gartner 尚未看到企业级的代理部署；他们看到的只是在“小而狭窄的领域”以及软件工程或采购等特定领域。

“但即使是这些工作流程也并非完全自主；它们通常要么是人为驱动的，要么是半自主的，”钱德拉塞卡兰解释道。

其中一个主要原因是缺乏基础设施；座席需要访问各种企业工具，并且必须具备与数据存储和 SaaS 应用通信的能力。他指出，与此同时，必须建立完善的身份和访问管理系统来控制座席的行为和访问，并监督他们可以访问的数据类型（非个人身份信息或敏感数据）。

最后，企业必须相信代理所提供的信息是值得信赖的，这意味着它没有偏见，不包含幻觉或虚假信息。

他建议，为了实现这一目标，供应商必须合作并采用更加开放的代理商与企业以及代理商与代理商之间的工具通信标准。

“虽然代理或底层技术可能正在取得进展，但编排、治理和数据层仍有待完善，才能让代理蓬勃发展，”钱德拉塞卡兰说道。“这正是我们目前看到很多摩擦的地方。”

是的，业界在人工智能推理方面取得了进展，但在让人工智能理解物理世界如何运作方面仍面临挑战。人工智能主要在数字世界中运行；它与物理世界缺乏强大的接口，尽管空间机器人技术正在不断改进。

但是，“对于这类环境，我们还处于非常非常非常早期的阶段，”钱德拉塞卡兰说。

要真正取得重大进展，需要在模型架构或推理方面进行一场“革命”。她说：“你不能停留在现有的水平，仅仅期望更多的数据、更多的计算，然后寄希望于实现通用人工智能。”

这一点在备受期待的 GPT-5 的发布中显而易见：OpenAI 为自己设定的最终目标是通用人工智能 (AGI)，但“很明显，我们离这个目标还很远，”钱德拉塞卡兰说道。最终，“我们离 AGI 还非常非常远。”

胜率设置方法“多乐跑得快第三方辅助器”（详细透视教程）-哔哩哔哩

第三届国家公园论坛将于8月18日在成都启幕

发表评论