深挖英伟达Blackwell

抖音快讯 2025年07月01日 00:16 1 admin

公众号记得加星标⭐️，第一时间看推送不会错过。

来源：内容编译自hipsandcheese。

Nvidia 长期以来一直致力于打造巨型 GPU。其最新的图形架构 Blackwell 延续了这一传统。GB202 是最大的 Blackwell 芯片。它占据了 750 平方毫米的庞大面积，并拥有 922 亿个晶体管。GB202 拥有 192 个流多处理器 (SM)，这是 GPU 上与 CPU 核心最接近的等效单元，并通过一个庞大的内存子系统为其供电。

Nvidia 的 RTX PRO 6000 Blackwell 拥有迄今为止最大的 GB202 配置。它与 Nvidia 产品线中的 RTX 5090 并列，后者也使用 GB202，但禁用了更多 SM。

高级对比展现了 Nvidia 旗下 Blackwell 产品的规模。AMD 的 RDNA4 系列以 RX 9070 和 RX 9070XT 为标杆。RX 9070 的性能略有下降，32 个 WGP 中有 4 个被禁用。我将使用 RX 9070 来提供对比数据。

工作分配

GPU 使用专用硬件在其核心之间启动线程，这与依赖操作系统中的软件调度的 CPU 不同。硬件线程启动非常适合 GPU 工作负载中常见的短小任务。流多处理器 (SM) 是 Nvidia GPU 的基本构建块，大致类似于 CPU 核心。SM 被分组到图形处理集群 (GPC) 中，其中包含光栅化器和相关的工作分配硬件。

GB202 的 SM 与 GPC 比例为 1:16，而 Ada Lovelace 最大的 AD102 芯片的比例为 1:12。这使得 Nvidia 能够以低成本增加 SM 数量，从而在无需更多 GPC 级硬件的情况下计算吞吐量。然而，短时波次的调度可能难以利用 Blackwell 的规模优势，因为吞吐量受限于 GPC 向 SM 分配工作的速度，而不是 SM 完成工作的速度。

AMD 的 RDNA4 采用 1:8 的 SE:WGP 比例，因此一个光栅化器为着色器引擎中的一组八个 WGP 提供数据。AMD 上的 WGP 与 Nvidia 上的 SM 最为接近，并且具有相同的标称矢量通道数。RDNA4 更易于用于小型调度和短持续时间的 wave，但值得注意的是，Blackwell 的设计并非独树一帜。独立于工作分配硬件扩展 GPU“核心”是构建更大型 GPU 的常用技术。AMD 的 RX 6900XT（RDNA2）的 SE:WGP 比例为 1:10。在此之前，AMD 最大的 GCN 实现（例如 Fury X 和 Vega 64）的 SE:CU 比例为 1:16（CU，即计算单元，是 GCN GPU 的基本组成部分）。虽然 Blackwell 的功率比与大型 GCN 芯片相同，但它拥有更高的时钟速度，并且很可能拥有更高的波发射率，以匹配每个 GPU 核心的吞吐量。它不会像 10 年前的 Fury X 那样承受短波的冲击，但 GB202 仍然比小型 GPU 更难提供信号。

虽然 Nvidia 没有扩展工作分配硬件，但他们确实对 Blackwell 进行了改进。之前的 Nvidia 产品无法在同一队列中重叠不同类型的工作负载。在图形和计算任务之间切换需要“子通道切换”和“等待空闲”机制。这意味着即使游戏没有请求同步，队列中的一个任务也必须完全完成才能开始下一个任务。管理暴露给主机端应用程序的队列的高级调度硬件可能一次只能跟踪一种工作负载类型的状态。Blackwell 取消了子通道切换，如果应用程序频繁在同一队列中混合不同类型的工作，它可以更高效地填充着色器数组。

SM 前端

一旦分配了工作，SM 的前端就会获取着色器程序指令并将其交付给执行单元。Blackwell 使用固定长度的 128 位（16 字节）指令，而 SM 采用两级指令缓存设置。这两个特性都继承自 Nvidia 的后图灵/Volta 设计。SM 的四个分区各自拥有一个私有的 L0 指令缓存，而 L1 指令缓存则由 SM 共享。