70+万一年的AI账单！未来，每位开发者的AI成本或将失控……

游戏天地 2025年08月14日 19:55 1 admin

【CSDN 编者按】在过去一年，AI 模型的计算能力突飞猛进，但与之伴随的并非成本的持续下降，而是应用层推理开销的急剧上升。曾经以“便宜、无限量”吸引用户的订阅模式，如今正面临限额、降级等现实约束；而重度用户的推理成本甚至有望冲破年均 10 万美元的大关。

原文链接：https://blog.kilocode.ai/p/future-ai-spend-100k-per-dev

作者 | Ewa Szyszka 翻译 | 郑丽媛

出品 | CSDN（ID：C SDNnews）

投稿或寻求报道 | zhanghy@csdn.net

最近，开源 AI 编程工具 Kilo 在 OpenRouter 上首次突破了每月 1 万亿 Tokens 的使用量大关：

同属一个“开源 AI 编码家族”的 Cline、Roo、Kilo，也都在本月迎来了快速增长：

据我分析，促使这种增长的部分原因是：最近 Cursor 和 Claude 陆续对用户收紧了“使用限额”。

（1）今年 6 月，Cursor 宣布对其 Pro 计划取消每月 500 次快速请求限制，改为“无限使用”模式。但事实是：所谓的“无限”仅限于 Auto 模型，其它模型仍按 API 定价，每个月 20 美金的额度，换算下来约 225 个 Sonnet 4 请求、550 个 Gemini 请求或 650 个 GPT 4.1 请求。

（2）今年 7 月，Anthropic 宣布将对 Claude 实施新的每周使用限额。根据官方公告，新的每周使用限额将主要影响 Pro 计划和 Max 计划：

● Pro 套餐（每月 20 美元）每周可用 Claude Sonnet 4 模型约 40–80 小时；

● Max 计划（每月 100 美元）每周可用 Sonnet 4 约 140–280 小时、Opus 4 约 15–35 小时；

● Max 计划（每月 200 美元）每周可用 Sonnet 4 约 240–480 小时、Opus 4 约 24–40 小时。

这波限额把不少用户“赶”进了开源工具阵营，于是就有了本文开头所说的数据陡增——而 Cursor、Claude 之所以要限额，其背后实际是整个行业在 AI Token 经济学（Tokenomics）上的一次错误假设。

行业的“误判”：推理成本会跟着原始成本一起暴跌？

过去一年中，AI 模型的原始推理成本（Raw Inference Cost）确实大幅下降，同比降低了大约 10 倍。这让很多创业公司赌了一把：既然成本下降得这么快，那我现在卖订阅就算亏钱也没关系，明年成本降下来后就能回本甚至大赚。

比如，Cursor 的 Ultra 套餐就是经典案例：

● 每月向用户收 200 美元；

● 实际提供的 Tokens 成本价值约 400 美元；

● 直接以 -100% 的毛利率运营。

Cursor 赌的就是一年后推理成本下降 90%，那么同样的 200 美元订阅就能带来160 美元的毛利润（+80% 毛利率）——结果，这事儿压根没发生，应用层的推理成本（Application Inference Cost）反而还涨了！

为什么应用推理成本会“爆炸”？

应用推理成本增加主要有两个原因：

（1）前沿模型的单个 Token 成本并没有下降；

（2）每个应用的 Token 消耗量暴涨。

前者是因为模型越做越大，并且引入了推理阶段扩展（Test-time Scaling），也叫长思考（Long Thinking）。相比训练阶段的扩展，这种在推理阶段加计算量的方法会直接推高推理成本。比如 OpenAI 的 o1 系列就是“思考型”模型，在处理复杂问题时，长思考推理阶段的计算量可能是传统单次推理的 100 倍以上。