OpenAI发布GPT-RealTime 每百万token价格下调20%

百科大全 2025年08月29日 12:31 1 admin

【CNMO科技消息】8月29日凌晨，OpenAI正式推出其最先进的语音合成模型GPT-RealTime，并同步更新多项API功能，包括远程MCP服务器支持、图像输入和SIP电话呼叫支持。OpenAI将该模型定位为迄今性能最强的实时语音模型，具备笑声捕捉、多语言无缝切换等能力，同时在遵循复杂指令、调用工具及生成更自然、富有表现力的语音方面实现显著提升。

价格方面，通用版Realtime API及GPT-RealTime模型即日起向所有开发者开放。在定价方面，GPT-RealTime每百万token音频输入价格为32美元（约合人民币228元），缓存输入每百万token为0.4美元（约人民币2.85元），音频输出每百万token为64美元（约人民币456元）。相比此前推出的gpt-4o-realtime-preview，新模型价格下调20%。此外，OpenAI还增强了对对话上下文的细粒度控制能力，允许开发者设置智能token限制并支持一次性截断多轮对话，从而显著降低长会话成本。

GPT-RealTime在音频质量与指令理解方面取得多项突破。该模型能够捕捉非语言信号（如笑声），在语句中切换语言并实时调整语气。根据OpenAI内部评估，其在不同语种（如中文、西班牙语、日语、法语）中识别字母数字序列的准确率更高。在Big Bench Audio评估中，新模型达到82.8%的准确率，超越去年12月发布的旧模型。在衡量指令遵循能力的MultiChallenge音频测试中，GPT-RealTime得分30.5%，较旧模型的20.6%大幅提升。

此外，OpenAI改进了模型在函数调用方面的表现，尤其在调用相关函数、时机选择及参数匹配三个维度上显著优化。在ComplexFuncBench音频评估中，新模型获得66.5%的得分，明显高于旧版的49.7%。同时，GPT-RealTime原生支持异步函数调用，可在长时间运行函数时不中断会话流程，从而维持对话自然性。