
英伟达公司今天点燃了新兴的人工智能工厂趋势,宣布推出Dynamo 1.0,这是一个开源平台,公司将其定位为大规模AI部署的关键软件层。
在公司于圣何塞举行的GPU技术大会上的这一宣布,针对企业AI中最具挑战性的问题之一:如何在大规模上高效运行日益复杂的生成和代理工作负载。
英伟达表示,推理的经济性正变得与模型的原始性能同样重要。公司看到一个快速扩展的软件市场,可以管理日益复杂的AI,英伟达副总裁伊恩·巴克说。
“随着我们在复杂性尺度上不断提升,AI的价值和能力以及每百万个令牌的成本也在增加,”他说。“像Dynamo这样的软件堆栈为Vera Rubin NVL72上的模型提供了提升,实现了每瓦特10倍的吞吐量,或令牌成本的十分之一。”
Vera Rubin NVL72是英伟达在一月份宣布的新的机架级AI超级计算机平台。它旨在处理大规模的AI训练和推理。
像Dynamo这样的平台对于英伟达超越芯片、服务器和网络,成为提供协调整个数据中心AI基础设施所需操作软件的供应商至关重要。Dynamo可以用于大规模的生成和代理推理,并与广泛流行的推理和编排框架集成。
开源Dynamo是英伟达“向上扩展护城河”的一个例子,Gartner公司专注于代理和AI基础设施、AI云和量子计算的分析师Chirag Dekate说。
“推理正成为一个软件编排问题,因此谁能在大规模上管理路由、缓存和调度,谁就能塑造AI的经济性,”他说。“通过开源Dynamo,英伟达正在进行经典的标准化操作:降低采用摩擦,吸引生态系统合作伙伴,并将其首选的运行时模型转变为市场的默认操作模型。”
代理AI的兴起给基础设施和软件带来了新的复杂性和需求,因为新模型不仅与人互动,还以远超人类互动所需速度彼此互动。
英伟达称这些代理需求为“第四扩展定律”,超越了预训练、后训练和测试时间扩展。“一个代理不仅与人类对话,还与其他AI对话的地方,增加了对低延迟和大规模上下文推理的需求,”巴克说。
这种转变推动了基础设施需求超越简单的聊天机器人工作负载。巴克说,代理模型“需要以15倍的速度交付令牌,并且模型规模扩大10倍。”他说,目前的1000亿参数模型将很快扩展到10万亿参数系统,每秒处理1500个令牌。
Gartner的Dekate指出,Dynamo专注于最大化GPU集群的利用率以提高利用率。“新兴的推理模型、多模态工作负载和代理系统使推理变得更加分布式、延迟敏感和成本敏感,”他说。Dynamo的计划器监控预填充和解码活动并重新分配GPU资源,而智能路由器是KV缓存感知的,允许最小化重新计算。
Dynamo还适用于英伟达今天宣布的更广泛的AI代理软件堆栈。新的代理工具包是一个“开放模型、运行时和蓝图的包,用于构建、评估和优化更安全、长期运行的自主代理,”生成AI软件高级副总裁Kari Briski说。该工具包包括用于模型推理的英伟达推理微服务,以及用于大规模生产的Dynamo。
