
亚马逊网络服务公司今天宣布了一系列人工智能基础设施的更新,涵盖主权本地部署、下一代定制AI加速器,以及AWS迄今为止提供的最先进的Nvidia公司GPU实例——这一切都是为了在大规模云和私有AI领域占据主导地位。
这些公告包括推出AWS AI工厂、新的Trainium3芯片驱动的Amazon EC2 Trn3 UltraServers的全面可用性,以及推出基于Nvidia最新Blackwell架构的GB300 NVL72平台的P6e-GB300 UltraServers。
在这些公告中,AWS AI工厂是一个新产品,它直接在客户现有的数据中心内提供专用的全栈AWS AI基础设施。
该平台结合了Nvidia加速计算、AWS Trainium芯片、高速低延迟网络、节能基础设施和核心AWS AI服务,包括Amazon Bedrock和Amazon SageMaker。
AWS AI工厂主要为政府和受监管行业而建,类似于一个私有AWS区域,提供安全、低延迟的计算、存储和AI服务,同时确保严格的数据主权和合规性。通过这一产品,客户可以利用自己的设施、电力和网络连接,而AWS负责部署、运营和生命周期管理。AWS表示,这一结果加快了通常需要数年时间的部署进程。
作为AI工厂公告的一部分,AWS还强调了其与Nvidia在该平台上的深入合作,包括对Grace Blackwell和未来Vera Rubin GPU架构的支持,以及未来在Trainium4中对Nvidia NVLink Fusion互连的支持。
“大规模AI需要全栈方法——从先进的GPU和网络到优化数据中心每一层的软件和服务,”Nvidia公司超大规模和高性能计算副总裁兼总经理Ian Buck说。“我们与AWS一起,将所有这些直接交付到客户的环境中。”
AWS还宣布,其由新三纳米Trainium3 AI芯片驱动的Amazon EC2 Trn3 UltraServers现已全面可用。
Trn3系统可以在单个UltraServer中扩展到144个Trainium3芯片,提供高达4.4倍的计算性能、四倍的能效和近四倍的内存带宽,相较于Trainium2。
UltraServers专为下一代工作负载设计,如代理AI、专家模型混合和大规模强化学习,AWS设计的网络提供低于10微秒的芯片间延迟。
在使用OpenAI Group PBC的开放权重模型GPT-OSS进行测试时,AWS客户实现了每个芯片三倍的吞吐量和四倍更快的推理响应时间,相较于上一代。包括Anthropic PBC、Karakuri Ltd.、Metagenomi Inc.、Neto.ai Inc.、Ricoh Company Ltd.和Splash Music Inc.在内的客户已经报告训练和推理成本降低了高达50%。
AWS还预览了Trainium4,预计将在FP4和FP8性能和内存带宽方面带来重大提升。
在AI基础设施公告中,AWS推出了新的P6e-GB300 UltraServers,采用Nvidia的GB300 NVL72平台,使其成为Amazon EC2中最先进的Nvidia GPU架构。
这些实例在AWS上提供最高的GPU内存和计算密度,针对生产中的万亿参数AI推理和高级推理模型。
P6e-GB300系统运行在AWS Nitro系统上,并与Amazon Elastic Kubernetes Service等服务紧密集成,从而允许客户安全高效地部署大规模推理工作负载。
