今年Hot Chips最全看点，都在这了！一文看尽芯片界7大风向

抖音热门 2025年09月01日 13:08 2 admin

AI无处不在。

作者 | ZeR0

编辑 | 漠影

芯东西8月29日报道，国际顶级芯片会议Hot Chips大会本周落幕。作为芯片及系统设计领域的风向标，今年Hot Chips继续放送了丰盛的技术干货，重头戏包括数据中心机架、AI核心编程、CPU、安全、GPU、网络、光学、热管理、存内计算、AI超算与AI推理等。

大会首日的重点议题有CPU、安全、图形、网络。

英特尔、IBM、日本CPU公司PEZY Computing、晶心科技子公司Condor Computing展示了前沿CPU设计。微软着重介绍了优化数据中心安全的硬件方案。

AMD和英伟达毫无疑问担当图形相关分享的主咖，比较惊喜的是Meta分享了其Orion智能眼镜的芯片设计。英特尔、AMD、英伟达、博通四家芯片巨头还分享了最新的网络芯片或架构。

第二天的重点议题有光学、散热、机器学习，都与AI计算密切相关。Marvell、d-Matrix、华为、英伟达、AMD、谷歌都分享了最新的AI计算产品或技术进展。

本文按照AI计算、网络、光学、CPU、GPU、安全、散热的顺序，总结本届Hot Chips干货，以供参考。

注：文章篇幅较长，可直接跳至感兴趣部分阅读。

01.

AI计算：加速AI推理，

支持FP4精度，瞄准超节点

AI计算的技术重点已经非常清晰了：突破存储瓶颈，提高数据传输速率，支持FP8、FP4等低精度数据格式，实现能将上百万个芯片互连的高速网络，以及源源不断的软件优化。

这些优化的目标不仅是提升整体性能，还越来越重视高能效，也就是尽可能节省电力和成本。

1、Marvell：存储是唯一重要的东西

Marvell重点分享了优化内存的三项创新：定制SRAM、定制HBM、CXL控制器。这些技术协同，层层改进内存带宽和延迟。

SRAM通常集成在AI加速器（XPU）中，速度最快，离XPU最近；HBM在XPU封装中，提供GB级存储空间；CXL在相邻电路板上，离XPU最远，但能提供TB级存储空间。

（1）定制SRAM

Marvell展示了业界首款2nm定制SRAM的设计。这款产品可提高6Gb高速内存，能够节省面积，并实现了一些关键特性来优化Vmin，实现低Vmin和高整体良率。

在相同工艺尺寸下，其定制高密度SRAM的带宽密度是标准SRAM的17倍，所需面积减少50%，待机功耗减少66%。

怎么做到的？主要有三种方法：运行速度更快，SRAM单元做得更宽，增加更多端口。即便用大型1Mbit SRAM阵列，Marvell也能实现高带宽密度。

（2）定制HBM

Marvell与SK海力士、三星、美光三大HBM供应商合作开发定制HBM解决方案。其定制HBM通过优化HBM基片及其接口来提高性能。

HBM接口占用了大量的片上空间，会蚕食计算空间。减少I/O接口面积则能腾出芯片边缘支持高速信号传输腾出更多接口空间，从而提高带宽。

Marvell采用标准DRAM芯片，并为其搭配的加速器优化了定制基片，搭配速率达30Tbps/mm的Marvell下一代D2D IP。

优化的HBM接口可缓解物理和散热限制，大幅减少功耗，节省出来的空间可用于计算及新增功能。

（3）DDR

应对更大的内存带宽与容量挑战，Marvell打造了Structera CXL产品线。

对此Marvell打造了高容量内存扩展设备。使用内存扩展设备可以不用通过CPU和PCIe交换机，从而实现更低的内存延迟、更高带宽。

其Structera A CXL近内存加速器集成了16个Arm Neoverse v2 CPU核心、4通道DDR5、200GB/s的内存带宽和4TB的内存容量，内存不到100W，可以分担AI推理等带宽密集型任务。

比如64核高端x86 CPU，添加1颗Structera A CXL芯片可以增加25%的核心数、50%的内存带宽，并增加4TB内存容量，但功耗只增加100W，每GB/s的传输功耗反而下降。

2、d-Matrix：加速AI推理的存内计算

AI芯片公司d-Matrix同样关注内存优化问题。

如今AI推理模型以更小参数规模实现了超过大语言模型的表现，而更多的token生成数饱受内存限制。实时语音、AI agents都需要非常低的延迟。

d-Matrix通过紧密集成内存和计算功能并重新设计内存来突破内存瓶颈。

其AI推理芯片Corsair采用一种数字存内计算架构，利用自定义矩阵乘法电路和块浮点数据格式，实现低延迟批量推理，能效为38TOPS/W，FP8/FP4精度下算力达2400-9600TOPS。用Corsair运行Llama3-70B模型，单token生成时间仅2ms。

每张Corsair PCIe卡包括2个封装，每个封装有4个chiplet，采用台积电6nm工艺，总共提供2GB SRAM，带宽高达150TB/s（远高于传统HBM），峰值功耗为600W，800MHz时功耗为275W，1.2GHz时功耗为550W。

PCIe卡顶部有桥接连接器，支持多卡互连。Chiplet边缘是LPDDR和D2D连接，以及16条PCIe通道。两张卡可以通过DMX Bridge连成16个Chiplet，具有All-to-All连接功能。

标准服务器可安装8卡，并支持多台服务器通过PCIe或以太网横向扩展。

这一架构在每个Chiplet上实现了高内存和高计算密度。每个Chiplet由4个Quad组成，每个Quad包含4个Slice、1个RISC-V控制核心和1个调度引擎。每个Slice包含DIMC核心、SIMD核心和1个数据重塑引擎。

Corsair内部的矩阵乘法器可使用INT8执行64×64矩阵乘法，或使用INT4执行64×128矩阵乘法。

Corsair支持带缩放因子的块浮点格式，即一个块（Block）内所有数据使用相同的缩放因子（即指数）进行运算，既能高效利用整数运算，又能实现浮点高动态范围。也就是微缩放（MX）浮点数据格式，现已是一种OCP标准。

该芯片支持MXINT16、MXINT8和MXINT4精度，还支持稀疏化、动态量化、内联解压缩等功能，可实现5倍的权重压缩。

8个DIMC矩阵单元可以连接在一起。

内存系统有全局内存、存储权重的Stash，每个chiplet有2个LPDDR接口。

为了实现16个chiplet的All-to-All连接，d-Matrix将D2D延迟降至115ns。即便通过PCIe交换机，其仍然可以将延迟控制在650ns。

因此d-Matrix可实现跨机架多服务器扩展。d-Matrix还提供了相应的Aviator软件，来使其AI芯片易于使用。

为了进一步突破内存瓶颈，d-Matrix将先进的3D堆叠数字存内计算3DIMC集成到下一代架构Raptor中，通过垂直堆叠内存并与计算芯片紧密集成，使AI工作负载的内存带宽和容量提升几个数量级。

其目标是，相比现有HBM4，Raptor在运行AI推理工作负载时，实现10倍内存带宽和10倍能效提升。

他们已经构建了一个原型3D DRAM测试平台，采用36μm D2D堆叠，顶部die是基于台积电N5工艺的逻辑芯片，底部die是3D DRAM，将热密度保持在0.3W/mm²以下，以防止DRAM温度过高。

3、华为：面向大型AI超级节点的UB-Mesh网络

华为的演讲以线上形式进行，重点展示了其统一总线网状网络UB-Mesh技术。

超节点正在成为十亿瓦级AI数据中心的标准。超节点将大量设备紧密连接，形成一个单一的大型计算系统，将芯片数量扩展至100万，带宽增至10Tbps，模式由异步DMA变成同步加载/存储，需要能够连接CPU+GPU+内存池+ SSD+网卡+交换机等各类设备。

通过转向统一协议，然后对网络拓扑和硬件冗余进行多项改进，UB-Mesh技术将能够构建和部署可靠的数据中心级超节点。

华为倡导通过统一总线来实现更低延迟。任何端口连接和转发到任何类型的设备，而无需协议转换开销。该技术还能实现更高带宽，仍可通过以太网运行。

当前挑战在于如何将本地总线扩展至数据中心网络规模，从而在超节点的所有芯片之间提供稳定可靠的低延迟连接，具备应对整个节点故障的弹性，同时又不至于在网络设备上花费超过加速器芯片本身的成本。

如何在不产生100倍的成本的情况下实现100倍的节点带宽？

华为认为，这需要一种新的混合物理拓扑结构，为此正在研究三种技术：

CLOS=多功能+可靠，适用于低带宽的顶级网络（1M）

nD mesh =高本地带宽+减少的远程带宽，适用于机架（~64）大Pod （128~8192）

nD sparse mesh=低成本+高带宽（16~128），适合更小的本地部署

其关键观察是，大语言模型训练具有两两分层流量模式。

UB-Mesh拓扑以多维度实现，每个维度都有从任意节点到任意节点的全连接，然后高维度连接低维度。这些都需要平衡成本。

随着网络规模的扩大，传统网络的成本会呈超线性增长。而UB-Mesh的成本呈亚线性增长，仅在计算节点数量大幅增加时才会适度增加。

下面是一个64节点系统采用CLOS + 2D-Mesh设置的例子。

如何使光纤链路足够可靠以满足超节点的需求呢？

这需要提升光纤链路本身的弹性。首先，支持在同一模块上对其他光纤链路进行链路级重试，以确保不会再次回到相同的问题路径。针对最严重故障的第二种方案是将MAC以交叉方式连接到多个光学模块，这样如果另一个模块发生故障，仍然可以使用好的光学模块。

华为的目标是将多业务吞吐量（MBTF）提升100倍。实现方法之一是提供热备机架，以便在节点发生故障时接管。故障机架修复后，会作为新的热备机架返回节点。如果机架带有额外的芯片，那么它本身就具有一定的弹性，可以作为弱热备机架返回。

更多详情参见：arxiv.org/abs/2503.20377

4、英伟达：把AI超算搬到桌面

英伟达详细介绍了其小型AI超算GB10 SoC。该芯片为英伟达DGX Spark小型工作站提供动力。

GB10集成了英伟达Blackwell GPU和由联发科打造的20核Arm CPU，采用台积电3nm工艺、2.5D先进封装。

它继承了Blackwell架构的所有主要功能，并提供128GB低功耗LPDDR5x高带宽统一内存，FP32精度下AI性能可达31TFLOPS，FP4精度下性能高达1000TFLOPS，额定TDP为140W。

内存子系统也是由联发科提供的。联发科实现了NVIDIA IP的部分功能，包括显示控制器和C2C链接。

GB10芯片里有一个相对较大的24MB L2缓存，实现了CPU/GPU一致性，可降低性能开销并简化开发。

搭载GB10的DGX Spark工作站提供高达4TB的SSD，单台能跑具有2000亿个参数的AI大模型和具有700亿个参数的微调模型。通过ConnectX-7 NIC还能将两个DGX Spark连在一起，以支持更大的模型。

5、AMD：专为生成式AI设计的GPU

AMD介绍了全新MI350系列AI芯片及其采用的CDNA 4架构。同样，MI350系列不仅支持FP8，还行业标准的MXFP6和MXFP4数据格式。

该芯片使用3D芯片堆叠技术，在两个6nm I/O基片上堆叠8个3nm XCD芯片，总共内置1850亿颗晶体管。

MI350系列支持标准OAM封装。MI350X用于风冷系统，MI355X用于液冷系统，液冷系统总板功耗为1400W。

风冷和液冷的内存容量和带宽相同，液冷的计算性能相对更高。

相比上一代，MI350系列的2个I/O die提供更宽、更低时钟频率的D2D连接，以实现更高能效。

MI350系列提供的HBM带宽比上一代多2TB/s，内存容量也更大，可减少所需的GPU数量。

从缓存和内存层次来看，LDS相比MI300翻倍。

XCD峰值引擎时钟频率为2.4GHz，拥有一致的4MB L2缓存。

CDNA 4架构使多种数据类型的吞吐量几乎翻倍，并引入了对MXFP6和MXFP4数据格式的硬件支持。

AMD预计其AI和高性能计算性能是竞争加速器的2倍以上。

下面是MI350系列的SoC架构框图。

MI350系列可配置为单个或两个NUMA域。除了内存分区选项外，XCD 还可以拆分为多个计算分区。

多插槽系统支持在单基板上部署多达8张GPU。PCIe Gen5用于连接主机CPU和网卡，AMD Infinity Fabric用于GPU之间的All-to-All直连。

AMD提供了一个参考机架解决方案，其中GPU、CPU、横向扩展NIC均来自AMD。对于超大规模计算平台，每个液冷机架最多可配置96或128张MI350系列GPU，每个风冷机架最多可配置64张GPU。

使用AMD GPU当然还要搭配AMD的ROCm 7软件。根据AMD披露的数据，用MI355X跑DeepSeek R1模型，推理速度达到上一代MI300X的3倍，FP4精度下性能超过英伟达B200，预训练Llama 3 70B模型的性能也达到上一代的两三倍。

将于明年发布的MI400系列，将用上搭载432GB HBM4，性能提升幅度更猛。

6、谷歌：专为大规模推理设计的TPU

谷歌在Hot Chips 2025大会压轴登场，分享代号为Ironwood的新一代TPU。

这是首款专为大规模AI推理设计的谷歌TPU，其突破性创新包括：

单SuperPod节点最多可容纳9216颗芯片，使用OCS（光电路交换机）共享内存
可直接寻址的共享HBM内存容量为1.77PB
FP8精度下，单SuperPod性能可扩展至42.5EFLOPS
强调RAS（可靠性、可用性、可服务性）
每瓦性能是上一代谷歌TPU Trillium的2倍
第三代液冷基础设施
用于嵌入和集体卸载的第四代SparseCore
超大规模部署正在进行中

Ironwood是谷歌首款双计算die TPU，采用了8层HBM3e内存，提供192GB容量和7.3TB/s带宽，并集成了更多可靠性和安全性功能，支持机密计算。

AI被用于设计ALU电路和优化布局。谷歌与AlphaChip团队合作完成了这项工作。

互连硬件也很重要，支持单SuperPod最多扩展至9216个芯片，同时可横向扩展到数十个SuperPod。

每个Ironwood Tray包含4个TPU，采用液冷设计。

16个TPU托盘装入一个机架，每机架64个TPU。该机架与另外16个CPU主机机架连接。机架内所有互连均采用铜缆，OCS提供与其他机架的连接。

将Ironwood与使用OCS的TPUv4进行比较：

Ironwood将一个Pod内的芯片数量增加了1倍。OCS支持将Pod配置成不同大小的矩形棱柱体，可以丢弃失效节点，通过从检查点恢复，重新配置切片以使用其他机架。

9216比4096的2倍更大，以便出于RAS原因拥有额外的机架。

谷歌创下了共享内存多处理器的新纪录——1.77PB HBM，实现了低开销的高带宽数据共享，能有效支持巨大的模型，并将FP8精度下的AI性能大幅提升，每瓦性能提高至TPUv4的近6倍、上一代Trillium的2倍。

Ironwood还搭配谷歌第三代液冷系统，采用多重循环，确保进入冷却板的水非常干净，至少不会堵塞冷却板。

该芯片采用第四代SparseCore。

谷歌也关注电力稳定性，通过软硬件功能来平滑电力消耗波动。

02.

网络：降低延迟，

让大规模传输既快又可靠

面向网络基础设施，英特尔着重介绍了可帮CPU和计算芯片减负的IPU芯片，AMD和英伟达均讲解了新一代网卡，博通侧重分享了其Tomahawk Ultra网络芯片。

AMD和博通的高速网卡峰值速率都是400Gb/s，英伟达的网卡则能最高实现800Gb/s。

1、英特尔：用IPU卸载并加速网络传输

英特尔IPU E2200 400G采用台积电N5工艺，目标是卸载并加速通过网络传输的常见基础设施工作负载，提供低延迟和大规模可靠的传输。

其网络子系统包括PCIe Gen5 x32域、400G以太网MAC、Arm Neoverse N2核心计算单元等组成部分，并提供使用不同加速器和IP块的自定义可编程卸载选项，以及P4可编程数据包处理、高性能内联加密等功能。

这款产品支持多主机、无头和融合模式，在融合模式下可混合运行。

下面列出了一些细节：

英特尔IPU在数据中心中已有许多用例。

2、AMD：业界首款超以太网联盟就绪的AI网卡

AMD分享了Pensando Pollara 400 AI NIC的内部构造。AMD没有PCIe交换机，用P4来实现可编程性，解决AI网络挑战。

AI横向扩展网络存在许多挑战，包括ECMP负载平衡链路利用率低、网络和节点拥塞、网络丢包等。超以太网联盟（UEC）正在利用以太网应对这些挑战。

Pensando Pollara 400 AI NIC是业界第一个超以太网联盟就绪AI网卡，性能提升多达1.25倍。

P4架构旨在构建可编程数据包流程。前文的英特尔IPU产品线也提供了这一功能。

下面是P4流程的一些具体组件：

虚拟地址到物理地址的转换等方面都有所增强。

原子内存操作与SRAM相邻实现。

还增强了管线缓存一致性。

AMD RCCL搭配Pollara 400 NIC，可将性能提升40%。

3、英伟达：800Gb/s超级网卡

英伟达ConnectX-8 SuperNIC是一款PCIe Gen6网卡，旨在通过以太网实现快速的AI网络连接，速率可达800Gb/s，有48个PCIe Gen6通道。

AI训练和推理具有不同的特点，因此对网络的需求也不同。英伟达ConnectX-8 SuperNIC既支持Spectrum-X以太网，又支持 Quantum-X Infiniband。

随着数据中心成为计算单元，需要将GPU连接到集群的其余部分。

GB300 NVL72是PCIe Gen6 SuperNIC的首个部署。由于英伟达Grace超级芯片以PCIe Gen5速度运行，因此会有一个Gen5 x16链路连接到Grace CPU，然后有一个Gen6 x16链路连接到B300 GPU，还有另一个Gen5 x4链路连接到SSD。

英伟达MGX PCIe交换机板卡也使用了该网卡。这样一来，英伟达不仅能在PCIe平台上支持博通交换机芯片，还能为未来的B300 PCIe GPU提供PCIe Gen6到NIC的连接。

RDMA网络能够助力扩展到大型集群。

以下是PSA数据包处理器的概览。

这是数据路径加速器（DPA），一个RISC-V事件处理器。

该网卡还有Spectrum-X以太网拥塞控制和路由，能与DPA配合使用。

Spectrum-X以太网的训练时间步长、尾部延迟表现如下：

4、博通：Tomahawk Ultra网络芯片

博通分享了高性能计算和AI扩展的各种需求。

以太网通常被认为不适合这些工作负载。博通希望通过推出Tomahawk Ultra网络芯片来改变这种现状。这是一款全新的51.2T交换机芯片，拥有64B容量，每秒可处理约77B个数据包。

博通的交换机阵容如下，其中Tomahawk 6是大型102.4Tbps吞吐量专用芯片。

Tomahawk Ultra的packet转发管线如下：

以下是主要特点：

在交换机的较低级别上有一个链路层重传（Link Layer Retry）功能，它是以太网FEC的补充，可提高突发错误或次优链路的链路健壮性，减少对高延迟的端到端重传的需求。

还有基于信用的流量控制（CBFC）功能来保证缓冲区的安全。

AI Fabric Header（AFH）覆盖在以太网MAC header，结合了一组最小的有用字段，保留了完整的以太网MAC兼容性。

其网络计算支持集体操作。

拓扑感知自适应路由对于保持网络运行非常重要。

拥塞控制可确保某些链路不会过载。

Tomahawk Ultra所有接口限速为的64B，延迟不到250ns。

03.

光I/O：部分替代电，

增速降功耗

将光I/O应用于互连，相比电I/O可以实现更快的传输速率和更低的功耗，理论上不难理解，难在如何实现。

1、Celestial AI：具有独立光I/O的SoC

Celestial AI展示了光结构模组Beach Front。该技术能够利用光连接下一代GPU和加速器，取代当前使用的电连接。

其想法不是传统的共封装光学器件，而是将其引入具有正确封装和散热的大型GPU。

它参与了台积电5/4nm早期创新客户计划，已完成四次流片。

目前其重点关注的是下方带有中介层的HBM。Celestial AI PFLink拥有一个包含无源和有源元件的硅光子层。Celestial将SerDes与通道匹配，从而实现超高能效。它还在构建光MAC（OMAC），以实现RAS功能。

Celestial AI使用了一种差异化的调制技术。

电fabric与光fabric的扩展定律不同。随着多芯片封装尺寸增大，光fabric的带宽可持续增长。

光fabric可能会影响缓存在芯片中的构建和使用方式。

使用Celestial AI的方法，光I/O可以用在ASIC中心，芯片的其余部分可以用电I/O。

CoWoS-L芯片组包含OIMB（光学多芯片互连桥）。保证光学接口的安全是一项挑战，Celestial AI称拥有解决封装问题的技术。

在光Fabric模组中，它被用于带有附加内存的16端口交换机中。

下面列出了一些关于模块和设备的信息：

2、Ayar Labs：用光I/O芯片助力横向扩展

大规模AI系统面临如何将数百万个芯片连成一个大型集群的互连问题。

机架范围大约3米，多机架范围大约15米，集群级范围大约100米。一大挑战是每机架功率密度，如果使用电I/O，每机架功耗会暴涨。

Ayar Labs的光I/O芯片可帮助使用光学技术实现横向扩展。它拥有一款UCIe光I/O重定时器，可与AI计算硬件共封装。其基本思路是制作一个UCIe Chiplet，使其能轻松将光I/O集成到封装中。该Chiplet的速率达到8Tbps ，因此还能提供大量的封装外带宽。

下面是UCle 8 Tbps TeraPHY光学I/O芯片的一些关键创新：

UCIe是一种基于标准的方式，企业可以根据通用规范构建软件包，以便于集成。

有了UCIe接收器，数据会被重定时，然后进入光端。这有助于解耦光信号和电信号传输的挑战。

这是光I/O端口架构：

面向HVM的TeraPHY芯片开发日趋成熟。

该公司还正在测试长期链路稳定性。热循环很重要，因为芯片加热和冷却会导致材料膨胀和收缩，会改变光在通道中的传播方式。

长期链路稳定性测试如下：

Ayar Labs展示了一个共封装的500W设备。

这是10小时端到端测试链路测试结果：

Ayar Labs称虽然他们展示的是工程验证测试，但他们实际已进入设计验证测试阶段，即将实现量产。

3、Lightmatter：用于AI的3D光中介层

互连进步速度远不及计算的扩展速度。一大挑战是芯片外围物理区域限制了I/O的执行量。要实现超过100倍的带宽，需要一个新的范式。

Lightmatter探讨了将硅光子技术更贴近芯片的优势。

其3D光学超级芯片平台Passage M1000的想法是在光中介层上封装计算和内存芯片，用3D堆叠实现紧凑的结构。

新设计预期速率可高达114Tbps。

Lightmatter将Passage M1000称作是迈向拥有超过200Tbps的XPU和超过400Tbps的交换机的第一步，已做好生产准备。

设计挑战在于让光学元件与电SerDes的物理尺寸相匹配。

Lightmatter使用硅微环谐振器来调节光，以实现非常紧凑的光I/O。

Lightmatter解释了为什么微环是最好的选择：

Lightmatter打造了光引擎Lightmatter Guide。

Passage M1000还具有一定的可重构性。

Lightmatter介绍了有16条水平总线的Tile设计以及它们如何连接到片外链路。

下面是用于电气连接的十字形金属缝线：

Lightmatter称它具有光路交换功能，可实现冗余。

中介层平台上启用了大量带宽。

4、英伟达：把多个数据中心连成十亿瓦级AI工厂

英伟达Spectrum-X以太网旨在支持大型GPU集群通信。

Spectrum-X以太网与现有以太网的不同之处如下：

在Hot Chips上，英伟达介绍了一个新的网络创新技术Spectrum-XGS以太网。这项跨区域扩展（scale-across）技术可将多个分布式数据中心组合成一个十亿瓦级AI超级工厂。

这意味着不仅需要硬件，还需要距离感知算法。

与OTS以太网相比，使用该技术可将多站点NCCL横向扩展性能提高至1.9倍，加速了多GPU和多节点的通信性能，实现了可预测异地AI集群的性能。

这样就可以将多个数据中心组合成一个统一的AI超级工厂运行，全面优化长距离连接性能，使AI训练不受单个数据中心能力和资源的限制。

英伟达新一代Spectrum-X以太网光学技术是世界上首个200G/SerDes共封装光学，无需耗费电力来连接可插拔的光学引擎，可节省大量电力。

NVIDIA Photonics是一款1.6T硅光CPO芯片，配备新型微环调制器。

实现此功能需要许多组件的配合。

英伟达已在数据中心运行该芯片。

Spectrum-6 102T集成硅光交换机实现了翻倍的吞吐量、更高的可靠性以及更低的功耗。

英伟达拥有Spectrum-X和Quantum-X交换机，并即将推出CPO网络交换机。

04.

CPU：先进制程、

Chiplet、3D堆叠成共识

CPU发展面临摩尔定律触顶的挑战，随着晶体管密度提升速度放缓，引入Chiplet、3D堆叠等先进封装方法已是大势所趋。

1、英特尔：采用Intel 18A的至强处理器

英特尔展示了其下一代288核至强处理器Clearwater Forest。这款处理器采用Intel 18A制程和3D封装技术，实现3D芯片堆叠，拥有更大的缓存、更快的能效核和更大的内存带宽。

12个能效核CPU Chiplet采用Intel 18A工艺，3个基础Chiplet采用Intel 3工艺。2个I/O Chiplet则沿用了Sierra Forest的工艺，采用Intel 7工艺。英特尔仍用EMIB进行芯片间互连。

1152MB LLC意味着每个插槽有576MB的末级缓存。也就是说，每个144核Tile上只有108MB，总共只有216MB。

在前端，Clearwater Forest通过3个3-wide指令解码器，将指令宽度提升50%。分支预测器也进一步优化，能提高整体准确性。

在后端，乱序执行引擎从能够调度5个操作到时钟周期提升到8个操作。执行引擎方面，执行端口数量增加到26个，整数和向量执行都翻倍。

内存子系统中，L2未命中缓冲区的大小翻倍，使其能够存储128个未命中数据。

单个Clearwater Forest模块拥有4个核心，共享4MB统一L2缓存。L2缓存带宽相较前代翻倍，达到400GB/s。

在双插槽系统中，每个芯片有12个DDR5-8000内存通道，总计1300GB/秒的内存带宽。

相比Sierra Forest，英特尔称Clearwater机架能够提供3.5倍的每瓦性能。

2、IBM：优化内存架构的Power11处理器

IBM的CPU研发理念是按需增加核心数，计划在后代Power处理器设计中聚焦几个重点：每个插槽上集成的硅片数是上一代的3倍（小chiplet有生长空间），制造良率协同效应，跨chiplet保持强带宽的能力，OMI内存Beachfront效率（启用高带宽SMP/IO接口），实质性延迟减少/拓扑协同（持续稳健扩展），长期发展效率和灵活性。

Hot Chips演讲的重点是新一代Power微处理器Power11。Power10将AI Infusion集成到了CPU核心中，但这还不够。Power11采用新版三星7nm工艺，除了进行少量核心架构变更外，还专注于整个系统设计。

Power11升级了内存子系统。IBM称其为OMI内存架构。这种分层内存架构中，一块芯片最多可支持32个DDR5内存端口，传输速度最高达38.4Gbps，最终将带来定制化的内存规格OMI D-DIMM。

IBM对HBM并不是十分看好，因为它容量较低。IBM想要8TB DRAM和1TB/s以上的内存带宽，OMI可以基于DDR5内存实现这个目标。这些OMI缓冲区会增加6-8ns的延迟。

Power11还将带来对外部PCIe加速器的优化支持。IBM拥有自己的Spyre加速器。

3、Condor Computing：高性能RISC-V CPU IP

晶心科技子公司Condor Computing展示了其首个高性能RISC-V处理器设计，据介绍这由一支仅50名工程师的团队完成。

该公司称，与其他有相近功耗的高性能被授权CPU相比，Cuzco的性能要出色的多。

Cuzco的优势包括降低成本、提高能效，每cluster有8个高性能计算CPU核心，符合面向高性能RISC-V计算的最新RISC-V配置文件（RVA23规范），以实现最大的软件兼容性，并完全支持指令集架构（ISA）定制。

其设计与多数高性能处理器大同小异，提供一个完整的IP设计，除了CPU核心，还有缓存和一致性管理功能，可接入内存和I/O总线。

它采用一种基于时间的微架构，使用硬件编译来进行指令排序，试图通过设计一种需要更少晶体管、从而更节能的方法来改进乱序执行。

Condor将这一微架构称作“第一个CPU设计与硬件编译的最佳指令排序”，包括寄存器计分板、时间资源矩阵（TRM），以及发布指令、精确预测未来的执行时间。与典型的O-O-O机器中核相比，其目标是减少门数和功率。

为什么采用基于时间的微架构？Condor解释说，这种设计的好处在于，调度的确定性降低了宽机器的逻辑复杂性，消除复杂的运行时每周期调度减少动态功率。Cuzco性能模型和设计为这种微架构方法提供了一个方向。

Cuzco采用基于slice的CPU设计，总共最多8个核心，具有私有的L2和共享的L3。每个slice实现一个完全兼容的RISC-V CPU，向机器添加一组对称的资源。

Cuzco的设计在SPECint2006中每时钟的性能，几乎是晶心科技当前AX65核心的两倍。

Condor相信他们的硬件调度系统能够以比传统O-O-O调度更低的功耗和复杂度实现更佳的效果，从而提供更高性能。

4、PEZY Computing：第四代MIMD多核处理器

日本CPU公司PEZY Computing专门从事多指令多数据（MIMD）CPU设计。该公司认为对于具有高度独立线程的应用程序，MIMD更有效。

第五代PEZY-SC的设计工作已启动，将采用3nm或更小工艺，预计在2027年发布。

PEZY Computing还在开发一种新的硬件描述语言Veryl，作为一个开源软件，可替代SystemVerilog。PEZY-SC5的核心组件正在用Veryl进行开发。

回到这次分享的重点——PEZY-SC4s。该芯片采用台积电5nm FinFET工艺，尺寸为18.4mm x 30.2mm（约556mm²），有48亿颗晶体管，SRAM容量为1.6 Gbits。内部总线中，读带宽为12TB/s，写带宽为6TB/s。

其主要计算资源包括2048个PE（16384个线程）以及PE和缓存的分层结构。外部内存是HBM3，有4个设备，带宽为3.2TB/s，容量为96GB。外部接口是PCIe Gen5，有16个lane，带宽为64GB/s。

其MIMD架构包括：

（1）使用许多线程的处理器元素（PE）：细粒度多线程、粗粒度多线程。

（2）为多个线程提供数据：本地内存存储、用分层缓存放大带宽。

（3）线程同步：显式线程和缓存同步、芯片级数据操作。

系统开发方面，具有主机CPU和PEZY-SC4s的节点，包括1张AMD EPYC 9555P、4张PEZY-SC4s和NDR InfiniBand。

规划的系统配置有90个节点，总共737,280个PE，双精度下峰值算力为8.6PFLOPS。

PEZY还对其设计进行了仿真，以了解其功耗和性能表现。与上一代相比，预计PEZY-SC4s在执行DGEMM工作负载时，功率效率将提高至2倍以上。

在性能模拟中，基因组序列比对算法Smith-Waterman的性能达到359GCUPS，是PEZY-SC3性能的3.86倍。

05.

图形：用AI提升GPU渲染效率，

拆解AI眼镜专用芯片

GPU两大巨头这次没讲新东西，而是把之前分享过旗舰图形产品进行了更系统的架构细节分享，尤其强调对光线追踪、AI性能及神经渲染的优化。

1、AMD：优化光追与AI算力

AMD RDNA 4专为下一代游戏和创作而打造，提供了升级的AI计算能力和创新的光线追踪功能，可支持严苛的游戏应用、先进的视频编码和流媒体能力的生产力和媒体创作。

其SoC架构设计灵活、高度可扩展，可根据市场需求决定配置，打造多种产品SKU。

RDNA 4架构针对高端游戏工作负载进行了大量优化，包括栅格化和计算效率、光线追踪性能、AI性能、多媒体性能等，提高了各类工作负载的带宽效率。

单个GPU由多个着色器引擎组成，L2缓存变大。AMD在Navi 48 GPU中配备了两个改进的媒体和显示引擎。多媒体模块进行了一些重要的编码器更新，降低了整体延迟。

计算引擎中，标量单元增加了浮点支持。光线追踪方面，RDNA 4的光线求交性能翻倍，还新增了一个专用的硬件实例转换器，将该任务从着色器程序中转移出来。BVH结构从4列加宽至8列。节点压缩也减少了BVH的尺寸。

光线追踪硬件的一项新特性是定向边界框，能够更精确地表示物体形状，提高光线相交测试效率。

乱序内存访问也是光线追踪的主要性能组成部分，某些请求可优先，无需等待其他延迟的工作。

RDNA 4还通过动态寄存器分配对着色器引擎进行了一些更新，从而增加传播波数。

针对ML/AI工作负载，RDNA 4增加了FP8及稀疏化功能。

AI利用神经辐射缓存以及神经超采样和去噪技术来填补因使用过少光线而造成的空白。

在SoC架构中，AMD展示了数据在着色器引擎、各种缓存和内存控制器之间的流动方式。Infinity Fabric的带宽高达1KB/时钟频率。

RDNA 4结构是模块化的。AMD设计的Navi 48可将其切成两半，制造出更小的GPU，减少了开发GPU变体所需的工作量。这也是RAS功能发挥作用以提高可靠性之处。

RDNA 4有新的内存压缩/解压缩功能。这些功能对软件完全透明，全部由硬件处理。AMD已将某些栅格工作负载的性能提高约15%，将一些工作负载的fabric带宽占用率降低约25%，并且不需要软件识别压缩算法。

2、英伟达：将传统图形与AI融合

英伟达重点介绍了Blackwell架构给神经渲染领域带来的好处，称RTX Blackwell为神经渲染的新时代奠定了基础。

基于Blackwell，英伟达正大力押注FP4计算，以最大限度地提升AI性能。

神经渲染将传统图形与AI融合，利用AI来生成帧，不仅提供更好的视觉保真度和沉浸式世界，而且还有助于帮笔记本电脑省电和在游戏中使用AI agents。

英伟达大量使用着色器执行重排序技术，以保持SM的满载。Blackwell增加了GDDR7支持，显著提升了总内存带宽。与PAM4（GDDR6X）相比，PAM3提供的每时钟位数较少，但更高的信噪比（SNR）允许更高的时钟速度，足以弥补差异，还支持更低的电压。

英伟达希望缩短首token执行时间，尤其是在运行混合图形/机器学习工作负载时。这为机器学习模型/AI agents更适用于交互式游戏奠定了基础。

Blackwell除了优化AI算力外，还配备了一整套AI管理处理器，以协调图形和机器学习的交错工作，确保数据传输和SM高效运行。

帧生成可将GPU功耗减半。

Blackwell图形GPU还支持通用MIG（多实例GPU）。与timeslicing相比，英伟达发现4个MIG可将性能提升60%。

单个1080p客户端工作负载过小，无法完全满足RTX Pro 6000的计算需求，将其拆分为多个较小的vGPU后，则能通过并行执行多个工作负载来保持GPU的负载饱和。

3、Meta：AI眼镜里的专用芯片

Meta的Orion眼镜原型将普通眼镜的外观与增强现实（AR）的沉浸式功能结合在一起，正在突破AI眼镜在空间和功耗方面的极限。

Meta探讨了如何使用专用芯片来加速世界锁定渲染（WRL）。

世界锁定渲染是指在MR/AR应用中，将虚拟物体固定在现实世界中的特定位置，使其与物理环境保持相对静止的渲染方式。这种方式使得虚拟物体能够与现实世界进行空间对齐，提供更加沉浸式的体验。

世界锁定渲染的原理如下：

下面是基本世界锁定渲染算法的框架：

由于眼镜的物理限制，世界锁定渲染的功耗预算极其有限。Meta运用了多种行业前沿技术，功耗上包括先进的工艺节点（Orion构思之初是5nm）、有限的DRAM使用、Vmin Fmax、积极的电源管理与压缩，物理尺寸上采用创意封装和尽量减少线数，将计算任务拆分到眼镜和外部Puck中。

世界锁定渲染对延迟极其敏感，因此需要在眼镜本地运行。Puck有3个主要处理芯片：显示处理器、眼镜处理器、计算协处理器。

世界锁定渲染是一种持续运行的工作负载，与传统的突发闲置模式不同，采用分散控制，提供超低延迟和积极的电源管理、简化的工作负载隔离和安全性、用于未来系统分区的模块化，具备可选性和灵活性。

它不会像大多数传统工作负载那样出现突发情况，因此对硬件的需求也不一样。

眼镜处理器负责处理所有眼部、手部追踪以及摄像头输入。它采用SiP封装、5nm工艺，总共集成了24亿颗晶体管。Meta还在芯片中植入了安全信任根，确保所有进出芯片的数据都经过加密。

来自puck的图像是HEVC编码的，所以眼镜处理器需要解码它。最终，它被重新编码为显示处理器的专有格式。

每只眼睛各对应一个显示处理器，运行重新投影（时间扭曲）。这里没有外部存储器，所有内容都存储在片上 SRAM 中，所以SRAM容量会很大。

计算协处理器同样采用5nm工艺，配备LPDDR4X内存，集成了57亿颗晶体管，是Orion眼镜中性能最强、功耗和发热量最高的处理器，包括计算机视觉处理、机器学习执行、音频渲染、HEVC 编码等功能，拥有相对较大的片上SRAM缓存。

06.

安全：微软用Azure硬件安全

阻止“全球第三大GDP国家”

微软亮出了一张图表：2024年网络犯罪GDP高于9万亿美元，预计2025年将超过10万亿美元，排名介乎于中国与德国之间。

因此，微软的系统是作为公司安全计划（SFA）的一部分为安全而设计的。微软展示的安全硬件系统架构中，每个CPU有12个DIMM插槽。

硬件安全模组（HSM）可以是PCIe卡，也可以是服务器或机架mount解决方案。

一种典型的HSM架构是Central HSM cluster。

微软正将其硬件安全从中心化模型转变为集成到每个服务器中。

Azure Integrated HSM是微软的安全芯片，通过采用本地ASIC，无需与中心化服务器进行TLS握手。

以前当芯片采用集中式设计时，微软会在集群级扩展HSM。现在，它需要将其规模调整到适合单台服务器的规模，同时还要保持低功耗和小尺寸。

这个ASIC专用芯片包括HSM优化硬件，采用AES和PKE操作的硬件加密加速、用于控制逻辑的实时核心，还有加固的接口和安全标准，具备检测入侵和篡改等行为的能力。

微软也进军机密计算领域，旨在保护正在使用的数据，尤其是在多租户云环境中。

微软还详细分析了不同功能的门数。硬件密码占了62%的面积。

为何要将其定制ASIC开源？微软分享了4点理由：一是开源支持更好的安全透明度；二是一致性，默认设施安全和操作安全；三是密码学高度标准化；四是建立层层防御。

07.

散热：从优化3D结构

到引入生成式AI

随着AI芯片性能变强，传统液冷解决方案迎来挑战，需要更复杂、更周到的散热设计。对此，Fabric8Labs展示了一种适应未来的数据中心散热解决方案。

Fabric8Labs方案本质上是一块OLED显示屏，用电荷而非光来以像素分辨率沉积铜。这就是电化学增材制造（ECAM），融合了高分辨率显示技术和电镀的可扩展性。有了它，就能制造出更复杂的结构，适应未来的AI散热管理硬件。

左侧3D结构经过优化，中间是生成式AI驱动的设计，右侧展示了一种未来的可能性，就是将铜直接沉积在硅片上，这样冷却效果直接作用于热源。

下面是一个两相液冷浸入式蒸发板，通过增加表面积优化流体的蒸发。

利用EDA软件工具可能会在晶圆上生产针对Chiplet技术设计的优化冷却结构。

未来，我们或许能看到封装级冷板和直接硅基技术，将液冷散热解决方案直接施加在硅片上。

参考来源：Serve The Home

玩家必备“微信小程序掼蛋记牌器”（软挂神器)

关于“微信小程序锄大地怎么拿好牌”（提高胜率技巧)

发表评论

今年Hot Chips最全看点，都在这了！一文看尽芯片界7大风向

玩家必备“微信小程序掼蛋记牌器”（软挂神器)

关于“微信小程序锄大地怎么拿好牌”（提高胜率技巧)

最新评论

最新留言

标签列表