首页 抖音推荐文章正文

动态|华为8月12日发布AI推理创新技术UCM

抖音推荐 2025年08月12日 17:23 1 admin

最新消息,华为即将在8月12日发布AI推理创新技术UCM(推理记忆数据管理器),作为一款以KV Cache为中心的推理加速套件,其融合了多类型缓存加速算法工具,分级管理推理过程中产生的KV Cache记忆数据,扩大推理上下文窗口,以实现高吞吐、低时延的推理体验,降低每Token推理成本。

动态|华为8月12日发布AI推理创新技术UCM

推理体验直接关系到用户与AI交互时的感受,包括回答问题的时延、答案的准确度以及复杂上下文的推理能力等方面。

资料显示,国外主流模型的单用户输出速度已进入 200 Tokens/s区间(时延 5ms),而我国普遍小于60Tokens/s(时延50 - 100ms),如何解决推理效率与用户体验的难题迫在眉睫。

中信建投在2025WAIC期间发布的白皮书指出,AI正从训练向推理的结构性转变而快速增长(如国内某头部互联网公司每三个月Token消耗接近翻一倍,5月底为16.4万亿Token)。在这样的大背景下,AI推理体验的重要性愈发凸显。

随着AI 产业已从“追求模型能力的极限” 转向“追求推理体验的最优化”,推理体验直接关联用户满意度、商业可行性等,成为了衡量模型价值的黄金标尺。

发表评论

泰日号Copyright Your WebSite.Some Rights Reserved. 网站地图 备案号:川ICP备66666666号 Z-BlogPHP强力驱动