首页 抖音快讯文章正文

开发者故事 | 构建高性能 DPU 数据面开发框架

抖音快讯 2025年08月29日 18:59 1 admin
开发者故事 | 构建高性能 DPU 数据面开发框架

在第三届 NVIDIA DPU 黑客松竞赛中,我们见证了开发者与 NVIDIA 网络技术的深度碰撞。在 23 支参赛队伍中,有 5 支队伍脱颖而出,展现了在 AI 网络、存储和安全等领域的创新突破。


黄昕阳、刘博文、任正行、张云轩、刘翔洲组成的 Axio 团队在本届黑客松中展现出卓越的技术实力,其创新项目“面向 DPU 加速的业务的高性能数据面开发框架”,荣获第三名。该项目通过系统化的设计原则和编程接口,有效突破了传统数据面开发方法的性能瓶颈,显著提升了 DPU 程序的开发效率。


DPU 数据面开发框架的创新设计与实现


在现代数据中心网络中,DPU 的硬件架构为高性能数据处理提供了新的可能性,然而传统的开发方法难以充分发挥其潜力。基于以往 DPU 的开发经验,Axio 团队发现 DPU 数据面和 CPU 或 GPU 数据面的设计原则存在显著差异,采用传统的数据面设计方法开发 DPU 加速的应用程序会导致性能下降。基于这一问题,Axio 团队提出了一套全新的 DPU 数据面开发框架。该框架系统化了 DPU 硬件架构的设计原则,开发出相应的编程接口和运行时框架,从而显著提升了 DPU 加速的应用程序的性能。


从需求分析到技术实现的全过程中,Axio 团队展现了扎实的专业知识和高效的协作能力。


攻克底层难题,实现性能提升


在开发过程中,团队面临的核心挑战来自于底层编程库的“无人区”。由于框架开发涉及最底层的编程库(如 librdma 和 flexio),网络上几乎找不到可参考的案例,团队遇到的每一个 bug 都像一道需要原创解法的高数题。


“每次遇到问题,我们都需要花费大量时间排查。”黄昕阳解释道。依托 DOCA 社区的帮助,团队仔细阅读底层代码库的文档,逐步验证每一个 API 调用的正确性。此外,团队还编写了一些示例来验证 DPU 的配置的合理性。最终,成功解决了这些问题,构建出高性能的数据面框架,为后续开发防火墙、虚拟交换机等功能奠定了基础。


对未来数据中心网络的展望


本次项目的创新之处在于其系统化的设计原则和高性能的编程接口。Axio 团队的框架不仅解决了 DPU 开发中的性能瓶颈,还为未来数据中心网络的高效运行提供了新的可能性。展望未来,团队计划结合 NVIDIA DOCA 软件框架和 NVIDIA BlueField-3 DPU 强大的硬件特性,继续深入探索 DPU 在 AI 和云场景中的更多应用,例如加速终端内部的数据搬运和协议栈处理,实现终端负载均衡。


谈及未来 DPU 领域的发展前景,黄昕阳指出:“在 AI 时代,DPU 凭借其独特的生态位展现出巨大潜力——不仅能作为加速器优化 GPU 间通信,还可以充当控制器实现以 AI 为中心的智能组网,这让我对 DPU 的未来充满信心。”


DOCA 开发者快问快答


Q

您是从哪里了解到 NVIDIA DPU 黑客松竞赛的?参赛的目标是什么?

A

我们通过 NVIDIA 官方微信公众号了解到本次竞赛。参赛的核心目标是与其他同行交流,听取大家对我们项目的建议,同时提升我们在 DPU 开发领域的技术能力。


Q

赛前举办的 DPU 线上技术训练营对您的备赛起到哪些帮助?

A

训练营让我们对 DPU 开发库有了更全面的了解,也提供了与 NVIDIA 专家直接沟通的机会,帮助我们少走了许多弯路。


Q

参与 NVIDIA DPU 黑客松竞赛有哪些收获?

A

最大的收获是与同行交流,解决了一些项目遗留的问题。例如,在实现 DPA 处理 RDMA 流时,我们通过交流发现并纠正了 DPU 配置中的错误,顺利完成了后续开发。


Q

您是从什么渠道了解到 NVIDIA DOCA 的?什么契机使您成为 DOCA 开发者?

A

作为网络研究领域的博士生,我们一直关注最新的网络设备。DPU 是网络研究的重要工具,而 DOCA 简化了 DPU 开发流程,因此成为 DOCA 开发者也是一种必然。最早在 2022 年接触 DOCA 时,我主要研究 BlueField-2 DPU 的 RDMA 可编程化应用。随着 BlueField-3 DPU 的发布,我便转向探索 DPU 在数据加速和 AI 负载均衡的应用,这促使我们参加黑客松以寻求更多技术交流。


Q

最初从事 DOCA 开发时,有具体明确的目标吗?

A

最初的目标是探索 DPU 在高速网络中的生态位,研究其能否加速 CPU/GPU 网络 I/O。后来逐渐转向 DPU OS 的优化和特定应用的数据面框架开发。这些都是服务于网络系统的研究。


Q

过往有其他成功的 DOCA 开发经历吗?

A

最近我们用 DPU 和 DOCA 实现了对 CPU I/O 通信中的 L3 缓存资源的优化,也作为成果发表在 ACM SIGCOMM 中。这个项目重点使用 DPU 中的 DPA 和 Arm 核心作为网络 I/O 通信的控制器,在网络数据流进入 L3 缓存前预先调速,防止 L3 缓存出现溢出;并且利用 DPU 片上 DRAM 资源去预防网络 burst 等场景。

我认为 DPU 和 DOCA 是实现学术想法的一个的理想工具,其一是 DPU 具备强大的性能支撑,可提供高达 400Gbps 的网络带宽;其二是 DOCA 框架大幅降低了开发门槛,特别是 DPA 核的引入使得功能开发更加完备,相比传统 FPGA 开发方式显著提升了效率。


Q

成为 DOCA 开发者对未来职业发展有何帮助?

A

成为 DOCA 开发者也可以参与到现在最热门的 AI 数据中心的网络研究中,这大大提升未来就业的竞争力。


Q

NVIDIA DOCA 中国开发者社区对你们有何帮助?

A

社区提供了丰富的技术资源和友好的交流环境,帮助我们解决了许多开发中的难题,也让我们能够与其他开发者分享经验。


开发者寄语


“高性能网络是现代数据中心的基石,也是最具挑战性的领域之一。我们希望更多志同道合的朋友加入进来,成为 DOCA 开发者,共同为下一代 AI 和云数据中心的网络技术贡献力量。”


——Axio 团队队长 黄昕阳

发表评论

泰日号Copyright Your WebSite.Some Rights Reserved. 网站地图 备案号:川ICP备66666666号 Z-BlogPHP强力驱动