从“数据粮仓”到“增长引擎”：先进存力打破AI科研算力瓶颈

热门资讯 2025年09月05日 15:11 2 admin

2025 年 8 月 29 日，在江城武汉，一场聚焦算力与存力的未来对话正在激烈展开。在中国计算机学会（CCF）举办的 2025 中国存储大会上，全国顶尖的学者与产业领袖齐聚一堂，共同探寻智能化时代的“数据之道”。

“大语言模型的参数量每两年增长超过 400 倍，而存储容量的增速仅有 2 倍，这其中存在上百倍的差距。”华中科技大学的周健教授在题为《分布式智能计算：软硬件协同优化与性能加速》的报告中，一语道破了当前人工智能与高性能计算领域的核心困境：人类构建算力的速度，远远超过了我们的“存力”为之输送数据“养料”能力。无独有偶，在另一场报告中，武汉大学的研究团队展示了低空经济等新兴产业如何创造更高、更快的数据传输需求，并倒逼存储体系进行颠覆性升级。

这场前沿对话正在传达一个重要信号：在以 AI 算力为代表的高性能计算浪潮的驱动下，存储的角色，正从过去被动承载数据、拖累计算效率的“制约因素”，历史性地转变为主动赋能 AI 提速的的“发展驱动”。它不再仅仅是存放数据的“粮仓”，更成为了点燃 AI 变革、驱动创新发展的核心引擎。

▍“超级隧道”：为数据洪流构建“超低阻”高速公路

当 GPU 的算力以几何级数飙升，昂贵的计算资源却有超过一半的时间在“空等”——等待数据从后端的存储系统被调取。这种“I/O 饥饿”（I 即 input，代表数据“写入”；O 即 output，代表数据“读取”）现象的根源，在于传统存储架构中，数据在硬盘、网络、内存与计算核心的交流通道上，充满了由操作系统、内部协议和硬件竞争带来的“收费站”和“拥堵点”。

为应对这一挑战，研发人员在数十年间进行了不懈探索：具有更高读写效率的固态硬盘（SSD）开始替代机械硬盘，InfiniBand 等更高带宽、更低延迟的网络应运而生，而远程直接内存访（RDMA）允许数据在网络和应用内存之间直接传输，部分绕开了操作系统的内核，显著降低了 CPU 的负担。此外，内核旁路（Kernel Bypass）等技术也试图在特定场景下进一步减少软件开销。

曙光存储副总裁郭照斌

然而，这些优化在很大程度上仍是“点状”或“段式”的。数据从进入网卡到最终落盘，依然要穿越复杂的操作系统内核、中断处理、内存管理和内部协议栈，每一步都可能引入不可预测的延迟和性能抖动。当 AI 时代的延迟需求进入微秒甚至纳秒级别，这些传统架构中的“软件税”就成了难以逾越的障碍。

因此，高性能计算开始转向一个更根本性的问题：能否构建一个端到端的、软硬件深度协同的数据通路，将软件的干预降至最低，从而无限接近硬件的物理极限？

正是在这样的背景下，曙光存储凭借其深厚的技术积累，以“先进存力”这一概念为核心，开启了一场贯穿硬件、架构与系统的全面革新，从底层重塑了数据的流动范式。

这解决方案的的核心，就是“超级隧道”（HyperTunnel）：它绕开传统操作系统限制，实现了对数据通路的极致掌控。

“超级隧道”体系由五大支柱构成：首先，它基于国产处理器和自研全 PCIe 5.0 链路的高速硬件平台，从物理基础上保证了通路的速度上限。其次，独创的“微控架构”以 CPU 的核心复合体（CCX）为单元，将邻近的内存、网卡、硬盘等资源划分为逻辑上独立的“高速数据通道”，从根本上避免了跨 CPU NUMA（非统一内存访问）带来的高延迟问题。

在此基础上，“超级隧道”通过三大核心技术彻底清除了通路上的障碍：

零中断（Zero-Interrupt）：通过自研的协程调度系统，变操作系统被动、不可控的调度为主动、纳秒级的自主可控调度，消除了外界因素带来的延迟不确定性。
零竞争（Zero-Competition）：在微服务之间采用自研的无锁化通信技术，替代传统的锁机制，根除了内部资源竞争带来的排队等待。
零拷贝（Zero-Copy）：实现数据从进入网卡到落盘的全路径无数据拷贝，只传递控制权，极大提升了效率。

“超级通道”是一套革命性的组合拳。它意味着数据通路上的软件损耗被降至极限，硬件的潜能得以完全释放。曙光存储研发副总裁郭照斌在 CCF 中国储存大会 2025上透露，这套为适配即将到来的 PCIe 6.0 时代和下一代国产芯片而设计的技术，将全面配置于曙光的高端产品线中。

▍FlashNexus 与 ParaStor：双剑合璧，精准应对 AI 全场景

基于“超级隧道”的坚实底座，曙光存储已经打造了集中式全闪存 FlashNexus，以及分布式全闪存 ParaStor 两款旗舰产品，以先进存力推动算力极致释放。

FlashNexus

FlashNexus 主要面向 AI 推理场景、大规模在线交易、金融高频交易等对响应速度极为苛刻的场景，可以实现亿级的每秒输入/输出操作数（IOPS）和 202 微秒的极致延迟。这意味着在并发处理向量数据库、KV Cache 长文本等成千上万个微小随机的 I/O 请求时，系统仍能瞬时响应，推理时延可降低 80%，为 AI 应用的实时决策提供了强大支持。

ParaStor 主要面向需要高带宽和巨吞吐量的 AI 训练场景。它通过“五级加速”（内存/SSD/网络/GPU/节点协同）和“三级协同”（芯片级/软硬件/AI 应用），能够提供高达 190 GB/s 的聚合带宽和数百万的 IOPS。这一性能指标确保了在训练过程中，海量数据集可以源源不断地“喂”给大规模 GPU 集群。根据曙光储存的测算，ParaStor 可将 GPT-4 级别模型的训练周期从 3 个月压缩至 1 周，这意味着在一个顶尖的 AI 超算集群中，ParaStor 存储系统不再是传统的“性能瓶颈”，而是跃升为“性能驱动”，让算力摆脱空转，真正用于探索科学与技术的边界。

▍从实验室到产业前沿：先进存力的实践验证

曙光存储的“先进存力”解决方案，已在一系列前沿和要求严苛的场景中证明了自己。

西湖大学高性能计算中心承载着世界级的科研计算任务：该中心同时面对 AI 研发、传统科学计算和信息化平台三大负载，对存储系统的性能和稳定性具有极高要求。此前，西湖大学试用过多种国内外存储产品，都在混合负载的压力下迅速暴露出性能瓶颈。

ParaStor F9000

经过多轮严格评测，西湖大学选择了曙光储存的全闪系统，部署后实测单节点带宽高达 150 GB/s，是国际友商的近 4 倍，将部分 AI 科研的计算过程加快了 30%。更重要的是，曙光团队深入理解高校的高性能计算场景，在提供硬件解决方案的基础上，还帮助西湖大学优化网络等基础设施，为该校在细胞生物学、阿尔茨海默病等领域取得的重大科研突破提供了坚实的存力支撑。

先进存力的价值不仅体现在基础科研领域。作为具身智能领域的明星企业，智元机器人的快速迭代背后，离不开曙光存储提供的“智存”产品。ParaStor 分布式全闪存储提供了超过 500 GB/s 的聚合读带宽，有力支持了多模态大模型的训练和数据资产沉淀，成为机器人“大脑”持续进化的加速器。

智能驾驶的实现，需要“投喂”海量、多样化的非结构化数据。曙光存储通过 ParaStor 帮助头部车企打造底层数据存储资源池，解决了数据的高效存、管、用难题，并通过智能分层技术在保证热数据快速存取的同时，有效降低了冷数据存储成本，让车企能更专注于核心算法的开发。

从无人机物流到空中交通，竞争激烈的低空经济的背后是一个由海量实时数据驱动的复杂系统。无论是飞行器的实时监控画面，还是气象、地理等多模态数据的融合分析，都需要一个能够快速存储、处理和调度数据的“底座”。能更好应对 PCIe 6.0 标准、具备超高带宽和低延迟特性的超级隧道技术，正是构建这个“底座”的关键，它确保了数据流的顺畅，进而保障了低空应用的智能化与安全性。

▍自主创新，高性能不再必须高成本

回顾过去，存储产业长期扮演追随者角色，以是一种“需求拉动”模式发展。然而，AI 时代的到来彻底改变了游戏规则。当算力的提升遇到数据供给的瓶颈，存储创新适时化被动为主动，成为高性能计算的“发展驱动”。一个高效、智能的强大存力平台，不仅能将被浪费的 GPU 资源利用率从 30% ~ 40% 提升至 70% ~ 80%，更能通过“以存促算”，重构整个 AI 基础设施的价值体系，打破国外厂商长期以来“高性能必须高成本”的魔咒。

这正是曙光提出“先进存力”概念的深层战略思考。通过加速与降本，以曙光储存为代表的国产先进存力，已为 AI、低空经济、智算中心等新兴领域释放了更大的产业潜能。

曙光存储总裁何振表示：“高性能并不一定意味着高成本。”这句朴素的话语背后，是打破国外技术垄断、重构产业价值的雄心。秉持着“强者恒存”的产业精神，曙光存储正以“先进存力”为基石，与众多产业伙伴携手，共同为智能化时代构建一个更安全、更高效、更绿色的“超级存力底座”，持续驱动着科研的突破与应用的创新，为国产芯片与存储产业的融合发展提供全方位支撑，共同迎接一个由数据驱动的数智未来。