首页 健康生活文章正文

集成片上Cache: 新一代RAID卡1300万IOPS、50GB/s+读写带宽

健康生活 2025年07月27日 18:40 1 admin

目录

- PERC 13 (H975i) NVMe RAID卡

- RAID卡跨代对比:写性能提高秘密?

- 集成Cache缓存的Broadcom SAS5132W主控芯片

- 更多RAID级别测试数据:16盘还没到最高?

- AI应用时代的几种RAID技术方向

尽管这些年来RAID卡技术有发展,但人们还是普遍觉得跟不上NVMe SSD的性能,导致在“硬RAID”配置下拖后腿的情况。想想如今PCIe 5.0企业级固态盘动辄上百万IOPS、超过10GB/s的带宽,RAID卡需要多快才能让大家满意呢?

看到本文标题的朋友,是否有点眼前一亮的感觉?对比上一代产品——我曾经在过去几篇文章中介绍过的:

PERC12 (H965i) RAID卡测试配置更正 & 报告分享

《更正:Broadcom 9600阵列卡RAID 5随机读IOPS不只90万》

Dell PERC 13 (H975i) NVMe RAID卡

集成片上Cache: 新一代RAID卡1300万IOPS、50GB/s+读写带宽

上面图表截自文档《AI Storage Pipeline Acceleration with Dell PERC H975i (PERC13)》,我还是来介绍下这款RAID卡在最右一列的性能数据吧:

- RAID 5读写带宽,分别可达56GB/s50GB/s

- RAID 5读写IOPS,分别可达1300万290万

- 在RAID重构时的100%随机读IOPS,可达980万IOPS;

- 在负载下的Rebuild时间(重构失效盘上的数据),每TB需要31分钟。

这些数据让我有点兴奋,需要把能找到的资料都看看。

集成片上Cache: 新一代RAID卡1300万IOPS、50GB/s+读写带宽

关于这一代RAID卡(包括控制芯片)的更新,Broadcom至今还“守口如瓶”,我当前只是从Dell网站找到了公开资料。

集成片上Cache: 新一代RAID卡1300万IOPS、50GB/s+读写带宽

目前看到的PERC H975i RAID卡,只有固定在服务器内接近背板位置的形态,还没有PCIe AIC标准卡——Dell这样设计也不难理解,因为它的上行通道是16个PCIe 5.0 lane;而下行(连接NVMe SSD)通道则是32个PCIe 5.0 lane。H975i放在front位置,与Host主板之间的长连线只需要2条x8即可。

RAID卡跨代对比:写性能提高秘密?

集成片上Cache: 新一代RAID卡1300万IOPS、50GB/s+读写带宽

RAID 5读IOPS对比,单位为百万IOPS

集成片上Cache: 新一代RAID卡1300万IOPS、50GB/s+读写带宽

RAID 5写IOPS对比,单位为百万IOPS(PERC 13比12代提升了4倍以上)

集成片上Cache: 新一代RAID卡1300万IOPS、50GB/s+读写带宽

RAID 5读写带宽对比,单位为GB/s。PERC13的亮点在于写带宽没有比读落后多少,相对PERC12提高了接近5倍。

集成片上Cache: 新一代RAID卡1300万IOPS、50GB/s+读写带宽

RAID5 Rebuild:PERC13在后台任务下的访问性能比PERC12高10倍,同时重构数据速度还有提高。

集成Cache缓存的Broadcom SAS5132W主控芯片

集成片上Cache: 新一代RAID卡1300万IOPS、50GB/s+读写带宽

上图是PERC12和13代RAID卡的技术规格,我用红色对更新的重点进行了标注:

- 主机总线通道:PCIe x16从之前的Gen4提高到Gen5

- PERC H975i使用的RoC主控芯片为Broadcom SAS5132W——看样子它也可以设计成兼容SAS的32端口RAID卡。但Dell这款卡只支持NVMe,原因估计是只有SSD才需要这么高的性能吧。

- PERC系列RAID卡传统上一直使用BBU锂电池做掉电保护,与超级电容之间有利有弊吧。本次H975i改用超级电容,应该与新款RAID卡的Cache高速缓存从板载芯片改为集成在主控芯片上有关。以前只需要保持DRAM颗粒的数据刷新,用电池可以维持至少数小时的供电;而改为片上Cache之后,估计整颗芯片都要供电,电池也撑不了太久。既然只是用于将缓存数据备份到Flash闪存,超级电容就更合适了。

扩展阅读:《炉石传说故障另类分析:这锅RAID卡电池背吗?

这里我再多思考一点,Broadcom SAS5132W此次的性能改进,应该与集成RAID缓存关系密切,Cache的带宽、延时都可以更好,对于写路径带来优化。同时,不同品牌、服务器厂商的RAID卡,也无法做出不同Cache容量的卡了。

- 在RAID卡与NVMe SSD直连(无PCIe Switch)的情况下,PERC H975i可以支持16块盘(每块盘x2 lane);如果经过PCIe Switch扩展,最多支持32个NVMe SSD。

对于配置RAID之后的Virtual Disk数量,PERC H975i最多支持64个简单虚拟磁盘(单盘RAID 0,这种还支持每个SSD建出2个VD?);由多驱动器组成的“复杂虚拟磁盘”,最多可以创建出16组。而PERC12即H965系列RAID卡对应的指标较高——应该都是针对在使用SAS盘的情况下。

集成片上Cache: 新一代RAID卡1300万IOPS、50GB/s+读写带宽

上图截自https://pcisig.com/9670w-32i,我初步判断使用SAS5132W芯片的Broadcom自有品牌RAID卡型号应该是9760W-32i,另外它也兼容12Gb/s SAS/SATA盘(其实从芯片命名就很明显了)。不过有点奇怪的一点是SAS接口速率为什么比上一代24G还降低了,可能是文字错误吧?

更多RAID级别测试数据:16盘还没到最高?

集成片上Cache: 新一代RAID卡1300万IOPS、50GB/s+读写带宽

测试平台:

- Dell PowerEdge R7725服务器

- 2x AMD EPYC 9755 128-Core Processors

- 768GB 6400MT/s registered DDR5

- Dell PERC H975i RAID controllers

- 16x Dell 3.2TB Data Center NVMe Mixed Use E3.S Gen5 drives

集成片上Cache: 新一代RAID卡1300万IOPS、50GB/s+读写带宽

- 顺序读带宽,各种RAID级别一律能达到56GB/s,这应该是受PCIe Gen5 x16主机接口限制了,理论带宽<64GB/s发挥的还算可以。

- 顺序写带宽,RAID 0最高能达到54GB/s,RAID 5我们前面说过是50GB/s,RAID 10和6分别为45GB/s、40GB/s。

- 4K随机读IOPS,一律可达13M IOPS。

- 4K随机写,RAID 0最高为10M IOPS,RAID 10减半为5M IOPS,RAID 5和6分别为2.0M和2M。

注:这里说受到了16块盘数的限制,我们来分析下合理性——16个SSD,RAID 0跑到1000万写IOPS,平均每块盘贡献62.5万;RAID 5理论上写惩罚为4倍(实际上读比写快,所以不到4倍),总体跑到290万IOPS也不低了。如果单块PERC H975i卡通过PCIe Switch连接更多SSD,可能有进一步提升空间。

- Rebuild下的性能都还不错,RAID 6每TB数据重构的时间长一些,为45分钟。

集成片上Cache: 新一代RAID卡1300万IOPS、50GB/s+读写带宽

上面图表是RAID 5 4K随机读测试,从左到右是1-64个线程,每线程都是QD(队列深度)32。最高性能为1340万IOPS。

注:关于fio的具体测试命令方法,也可参考下我翻译整理的《服务器NVMe调优指南:4900万IOPS、340GB/s带宽 (24x SSD)》一文。

集成片上Cache: 新一代RAID卡1300万IOPS、50GB/s+读写带宽

RAID 5 4K随机写测试,从左到右是1-64个线程,每线程都是QD1。最高性能为290万IOPS。

集成片上Cache: 新一代RAID卡1300万IOPS、50GB/s+读写带宽

RAID 5 4K随机读/写(各50%)混合测试,从左到右是1-32个线程,每线程都是QD4。最高性能为230万IOPS,这里比全随机写低有点意外。我还看到写延时显著低于读延时,应该是Cache缓存的影响。

AI应用时代的几种RAID技术方向

在本文参考的这份报告里,列出的参考资料恰好我之前也分享过:《AI的存储需求:训练和Checkpoint》。

集成片上Cache: 新一代RAID卡1300万IOPS、50GB/s+读写带宽

在当初对SNIA那个ppt的解读中,有一张关于Checkpoint恢复的读带宽要求——实际上应用需求应该是5分钟,估计那位分享人把带宽数字都按5小时来计算了?其实我这点疏漏并不是太难发现,只不过我写东西的时间精力有限,没来得及深究,而看出来的读者大多时候并不会把问题指出来。这样,能互动/给我留言点明错误的朋友就显得难能可贵了。无论水平高低,这些年我也分享过不少篇技术文字,一并在此致谢!

在SSD普及发展到今天的情况下,并不是只有传统RAID卡和磁盘阵列这样的驱动器保护方式。比如使用GPU加速的GRAID,以Xinnor为代表的高性能软RAID,还有基于服务器+软件实现的分布式存储都可以达到冗余的效果。

扩展阅读:《AI时代的高端文件存储系统:IBM、DDN、Weka 和 VAST》

我之前还制作过2篇RAID技术方面的视频号节目:

6500万IOPS、310GB/s带宽:软RAID用了什么黑科技?

(使用SPDK降低CPU占用率,因而跑到比SSD裸盘更高的IO性能)

SSD软RAID性能比拼:MDRAID vs. ZFS vs. Xinnor

以上视频中有个表格也该更新一下了:

集成片上Cache: 新一代RAID卡1300万IOPS、50GB/s+读写带宽

由于新一代RAID卡的优异表现,我在上表中特别用修订符号进行了标注,并统一采用RAID 5模式下的性能。可以说如今最新的RAID卡与GRAID、Xinnor这些商业本机RAID产品,单纯性能上的差距已经缩小(易用性和成熟可靠度上本来就有优势);并且在有些方面已经超出免费的软RAID(特别是IOPS)

如果让我展望下一代传统“硬件”NVMe RAID卡,预计PCIe 6.0接口还能带来提升。伴随着未来一代服务器的发布,最快我们预计在明-后年应该就可以看到?

参考资料https://infohub.delltechnologies.com/static/media/client/7phukh/DAM_92aa8cd0-3610-40b4-9547-4248276b0186.pdf

《戴尔 PERC13 和 PERC12用户指南 - PERC H975 系列和 PERC H965 系列卡》https://dl.dell.com/content/manual41326890-%E6%88%B4%E5%B0%94-perc13-%E5%92%8C-perc12-%E7%94%A8%E6%88%B7%E6%8C%87%E5%8D%97-perc-h975-%E7%B3%BB%E5%88%97%E5%92%8C-perc-h965-%E7%B3%BB%E5%88%97%E5%8D%A1.pdf?language=zh-cn


注:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。如果您想在这个公众号上分享自己的技术干货,也欢迎联系我:)

尊重知识,转载时请保留全文。感谢您的阅读和支持!

发表评论

泰日号Copyright Your WebSite.Some Rights Reserved. 网站地图 备案号:川ICP备66666666号 Z-BlogPHP强力驱动