Nvidia公司今天宣布了一系列人工智能软件和网络创新,旨在加速AI基础设施和模型的部署。
这家科技巨头生产的图形处理单元推动了大部分AI经济的发展,推出了名为Spectrum-XGS的“超大规模”解决方案。Spectrum-X以太网交换平台专为AI工作负载设计。Spectrum-X连接数据中心内的整个集群,允许海量数据集在AI模型之间流动。Spectrum-XGS通过提供数据中心之间的编排和互连来扩展这一功能。
“你可能听过我们使用‘向上扩展’和‘向外扩展’这样的术语。现在我们引入了一个新术语,‘跨越扩展’,”Nvidia加速计算产品总监Dave Salvator说。“这些交换机基本上是专为实现多站点扩展而设计的,不同的数据中心能够相互通信,并基本上作为一个巨大的GPU运作。”
在数据中心的帮助下,“向上扩展”意味着更大的机器,“向外扩展”指的是数据中心内更多的机器。然而,许多数据中心在功率消耗或散热能力上有限制,这限制了可以在特定位置合理放置的机器数量或计算能力。
Salvator表示,该系统最大限度地减少了抖动和延迟,即数据包到达时间的变化和发送数据与接收响应之间的延迟。这两者在AI网络中至关重要,因为它们决定了分布在各个站点的GPU之间可以实现的带宽。
相比之下,NVLink Fusion是Nvidia在五月份推出的一种网络结构技术,允许云提供商扩展其数据中心以同时处理数百万个GPU。NVLink Fusion和Spectrum-XGS共同代表了AI基础设施的两个扩展层:一个在数据中心内部,一个跨多个数据中心。
Dynamo是Nvidia的推理服务框架,用于部署模型和处理知识。
Nvidia一直在研究如何使用这种平台的专门技术——解耦服务来部署模型。这将“预填充”或上下文构建和“解码”或令牌生成分布在不同的GPU或服务器上。
这很重要,因为推理曾经被认为是次于模型训练的,现在在代理AI时代成为一个严峻的挑战,在这个时代,推理模型生成的令牌数量远超旧模型。Dynamo是Nvidia对此的解决方案,通过创建一种更快、更高效和更具成本效益的处理方式。
“如果你看看像GPT OSS这样的模型的交互性,OpenAI最近发布的社区模型,我们能够实现大约4倍的每秒令牌增加,”Salvator说。“你看看DeepSeek,我们在那里的提升也非常显著,达到2.5倍的增加。”
Nvidia还在研究“推测解码”,这使用第二个较小的模型来猜测主模型在给定提示下的输出,以尝试加速。“这种方法的工作原理是你有一个所谓的草稿模型,这是一个较小的模型,试图基本上生成潜在的下一个令牌,”Salvator说。
因为较小的模型速度更快但准确性较低,它可以生成多个猜测供主模型验证。
“这里的能力在于草稿模型能够推测性地正确猜测下一个令牌需要是什么,性能就能得到提升,”Salvator解释道。“我们已经看到使用这些技术大约35%的性能提升。”
据Salvator称,主AI模型在其学习的概率分布中并行进行验证。只有被接受的令牌会被提交,因此被拒绝的令牌会被丢弃。这将延迟保持在200毫秒以下,他形容为“快速和互动”。
通过与theCUBE社区互动,支持我们保持内容开放和免费的使命。加入theCUBE的校友信任网络,在这里技术领导者可以连接、分享情报并创造机会。
由技术愿景家John Furrier和Dave Vellante创立,SiliconANGLE Media建立了一个动态的行业领先数字媒体品牌生态系统,覆盖1500万+精英技术专业人士。我们新的专有theCUBE AI视频云在观众互动方面开辟了新天地,利用theCUBEai.com神经网络帮助技术公司做出数据驱动的决策,并保持在行业对话的前沿。