首页 抖音热门文章正文

华为创新发布UCM技术,驱动Token经济蓬勃发展

抖音热门 2025年08月16日 00:46 1 admin
华为创新发布UCM技术,驱动Token经济蓬勃发展

投资分析机构中,AI(人工智能)正将冗杂的研究报告与企业财报数据拆解成一段段简明有力的结论,在分秒内为投资分析师提供有力的决策支撑;银行运营中心里,AI从数以万计的来电中精准捕捉每一个诉求,将海量的未处理数据实时量化;用户的手机上,AI在十几秒内便可完成信贷审批,迅速识别分析用户信息,识别、拦截金融风险……

可以看到,AI推理已经成为金融领域不可或缺的一项关键技术。随着AI技术在各领域应用逐渐走深向实,AI的“推理能力”正取代“训练能力”,成为下一个爆发式增长的关键。统计数据显示,当前AI算力需求中,推理已占据58.5%的份额;无论是国际顶尖模型GPT 5,还是国内头部平台“火山引擎”,其调用Token(文本处理的最小单元)所处理的线上推理请求数量都已远远超过训练所需。

华为公司副总裁、数据存储产品线总裁周跃峰表示:“AI时代,模型训练、推理效率与体验的量纲都以Token数为表征,Token经济时代已经到来。”

华为创新发布UCM技术,驱动Token经济蓬勃发展

AI推理“不可能三角”成产业发展瓶颈

在谈到我国AI产业发展现状时,周跃峰直言:“当前,AI推理成本、效率和性能的‘不可能三角’,正成为制约产业发展的无形枷锁。”

要理解这一“不可能三角”的成因,就要从AI推理的核心运作机制——KV Cache(键值缓存)说起。抛去复杂的技术名词,可以将所谓的KV Cache简单理解为“AI为了能够快速衔接上下文语境而为自己准备的‘短期记忆’”。具体而言,AI会将对话中出现过的关键信息临时存储起来,避免在后续再次出现时进行重复思考。这是保障用户使用AI大模型进行多轮对话或长文档分析等功能时使用体验的核心机制,在多种复杂推理场景中均起到关键作用。

然而,这一功能在让AI推理变得更加高效的同时,也显著增加了AI推理的成本,带来了“推不动、推得慢、推得贵”三大瓶颈。

记者了解到,KV Cache的运行需要占用GPU显存,这就意味着在智能基础设施建设仍不够完善的当下,AI推理的能力仍会受限于GPU的性能,从而导致AI在处理复杂数据或长文本时,出现关键信息遗漏等情况,影响AI推理的完整性和准确性,也就是“推不动”。

同时,在我们日常使用大模型的过程中,模型回复“服务器繁忙”或生成到一半忽然中断的情况时有发生。这些熟悉的“报错”,其实就是AI推理“推得慢”的表现。这是由于随着AI可处理的推理任务日渐复杂,需要计算和存储的KV Cache也会随输入文本量的增加而增长,这会直接导致模型处理速度变慢,尤其是在多用户并发请求时出现严重的响应延迟,直接影响使用体验。

此外,周跃峰还指出,由于GPU的核心内存有限,许多本可复用的KV Cache被频繁丢弃和重复计算,造成了巨大的算力资源和成本浪费。这一难以避免的“推得贵”难题,让许多中小企业难以负担昂贵的算力成本,也延缓了AI服务规模化应用的脚步。

“在Token经济时代下,如何高效率地发掘Token的价值,才是破解这一‘不可能三角’的关键。”周跃峰说。

以技术创新助推“Token”经济发展

面向当前AI推理所面临的系统性挑战,产业给出的选择是“以巧破力”。近日,华为发布了一项创新AI推理技术——推理记忆数据管理器(UCM),面向三大核心痛点进行了针对性地全面优化。

华为创新发布UCM技术,驱动Token经济蓬勃发展

具体而言,UCM是一款以KV Cache为中心的推理加速套件,融合了多类型缓存加速算法工具,可以分级管理推理过程中产生的KV Cache记忆数据,扩大推理上下文窗口,在实现高吞吐、低时延推理体验的同时,降低每Token的推理成本。

“UCM并非简单的单点优化,而是通过推理引擎插件、功能库和高性能KV Cache存取适配器三大组件的协同,从推理框架、算力和存储三个层面全面提升AI推理能力,实现AI推理更优体验、更低成本。”周跃峰向记者表示。

记者了解到,为了解决GPU容量不足带来的KV Cache丢失问题,UCM提出将KV Cache“分层卸载”的解决方案,根据KV Cache的重要性和时效性将其分类,将最核心的信息保存在可即时调用的核心内存中,相对次要的信息则被卸载至外置高性能存储装置中,作为“长期记忆”备用。通过这种创新的算法和架构,UCM突破了物理资源的限制,实现了推理上下文窗口的10倍级扩展,大幅提升了AI进行长篇叙事和深度思考的能力,也是从根本上解决了“推不动”“推得贵”的难题。

同时,面向“推得慢”瓶颈,UCM提出“以查代算”,依托层级化自适应的全局前缀缓存技术,将高频复用的历史对话、通用知识库、行业语料等以KV Cache的形式,固化成一个庞大的数据库。当AI接收到新的推理任务时,系统只需从数据库中检索并调用已有的结果,极大程度地减少了单次任务的计算量。周跃峰告诉记者,这一技术能够将AI 的首Token时延降低90%,革命性地优化了用户的使用体验。

然而,可以预见的是,随着AI处理的任务越来越多,UCM所建立的数据库也会越来越庞大,无论是查询还是计算,所需调用的算力资源必然会越来越多。“为解决这一局面,UCM搭载智能分级缓存能力,这也是能够实现分层卸载、以查代算的底层能力支撑。”周跃峰介绍道,“UCM能够记忆热度在HBM(热数据)、DRAM(温数据)和SSD(冷数据)等不同成本和速度的存储介质中实现按需流动,并融合多种稀疏注意力算法,帮助AI在海量数据中只聚焦于与当前任务最相关的关键信息,实现精细化资源调度。”从实机测试结果看,在UCM加持下,长序列场景下的系统吞吐量实现了2-22倍提升,显著降低了每Token的推理成本。

华为创新发布UCM技术,驱动Token经济蓬勃发展

“UCM的技术路线其实是AI发展的必然选择,当前,业界也已经有了一些产品积累。”华为数据存储产品线AI存储首席架构师李国杰向记者表示,“但我们的UCM技术是业界首次将其整合为一套完整的、全流程全场景的、可演进的系统性方案,配套研发了一系列场景化加速算法和套件并开放了第三方库。希望这样一套‘推理框架、算力、存储三层协同’的方案,能够为行业解‘燃眉之急’。”

以开源共建促进AI行业化落地

此外,值得一提的是,华为方面宣布,UCM将于今年9月正式开源。

华为创新发布UCM技术,驱动Token经济蓬勃发展

“UCM将通过开放统一的南北向接口,适配多类型推理引擎框架、算力及存储系统,最终逐步贡献给业界主流推理引擎社区。”周跃峰表示。

“在Token经济和Agentic AI时代下,Token消费也进入了一个新的量级,高昂的成本已经成为当前AI产业化落地的最大难题之一。”华为数据存储产品线副总裁、闪存领域总裁谢黎明直言,“在这样的大前提下,我们希望通过技术开源来促进行业在推理架构上聚焦存储、网络全栈推理加速的技术方向,真正走上对推理发展和Token经济有益的道路。”

同时,技术的标准化是大规模应用的基础,只有形成完善的行业标准,才能从根本上解决今天推理体验和推理成本的问题。“IT行业具有产品先行、标准随后的特点,我们也希望能够通过开源UCM的方式,吸引更多厂商、业界存储伙伴加入,推动推理加速技术的标准落地。”谢黎明说道。

从这一角度来看,UCM的意义已超越一款单纯的技术产品。它代表了一种解决复杂系统问题的新思路:当单点算力的提升遭遇瓶颈时,通过系统架构的创新,实现全局的效率优化和成本重构。对于处在关键爬坡期的中国AI产业而言,这套“组合拳”来得恰逢其时,它有望打破眼前的商业困局,驱动“体验提升—用户增长—投资加大—技术迭代”的飞轮重新加速转动,为中国的“Token经济”注入确定性与新动能。

作者 丨张琪玮

编辑丨齐旭

美编丨马利亚

监制丨赵晨

华为创新发布UCM技术,驱动Token经济蓬勃发展华为创新发布UCM技术,驱动Token经济蓬勃发展

发表评论

泰日号Copyright Your WebSite.Some Rights Reserved. 网站地图 备案号:川ICP备66666666号 Z-BlogPHP强力驱动