微软和NVIDIA宣布,Azure现已运行NVIDIA的GB300 NVL72,这是首个大规模生产集群,专为推动更大、更强大的“推理”模型并加速服务交付而设计。该系统结合了机架级内存、第五代NVLink和800Gb/s网络,使数十个机柜如同一个巨大的加速器般运作。
GB300 NVL72是NVIDIA为“AI推理”时代设计的机架级平台——在这个时代,模型在推理时需要更多计算资源来处理多步骤任务。每个机架将72个Blackwell Ultra GPU和36个Grace CPU连接成一个单一的72-GPU NVLink域,提供一个统一的快速内存池和130 TB/s的机架内带宽,以支持巨大的上下文和更长的思维链。
Azure的集群通过NVIDIA的Quantum-X800 InfiniBand将机架连接在一起,为每个GPU提供高达800 Gb/s的网络吞吐量。这使得OpenAI能够在机架之间扩展解码和预填充,同时保持低延迟——这对于交互式代理和长上下文工作负载至关重要。
单个NVL72机架在这些GPU中聚合了大约21 TB的HBM3e内存,并且——计算CPU-GPU一致性内存——可以达到约40 TB的“快速”内存。这个内存容量有助于在不需要频繁卸载的情况下支持更大的模型和更长的提示,这转化为更高的每秒令牌数和更少的停顿。
在基准测试中,NVIDIA的GB300 NVL72最近在MLPerf推理v5.1的新推理测试中创造了记录,包括比上一代基于Blackwell的集群更高的DeepSeek-R1吞吐量。该平台还针对FP4格式(例如,NVFP4)和Dynamo风格的分解服务进行了调优——这些选择旨在降低大规模模型的推理成本。
在这种规模下,电力和电网稳定性正成为一流的工程问题。GB300引入了带有板载能量存储和协调电力平滑的机架电源单元,将峰值需求削减多达30%——当数千个GPU同步加速或减速时,这非常有用。预计在超大规模AI构建中会看到更多这种电网感知设计。
这一举措也符合更广泛的容量战略。微软一直在锁定供应——无论是在自己的数据中心还是通过“新云”合作伙伴——以支持对GPU需求旺盛的项目,即使它准备在全球推出新的GB300。这种采购策略,加上Azure的GB200布局,是微软打算缩短训练周期并更快将更大模型推向市场的方式。