Meta发布GPU集群详细信息并将用于训练Llama3

2024年03月13日 由 daydream 发表 414 0

Meta Platforms公布了两款超级强大的图形处理单元集群,它们将用于支持下一代生成式人工智能模型的训练,包括即将推出的Llama 3。


微信截图_20240313092654


Meta的工程师Kevin Lee、Adi Gangidi和Mathew Oldham在一篇博客文章中解释称,这两个拥有24,576个GPU的数据中心规模的集群是为了支持比他们之前发布的模型更大、更复杂的生成式人工智能模型而构建的,比如Llama 2,这是一款与OpenAI的ChatGPT和谷歌的Gemini相抗衡的流行开源算法。工程师们还表示,这些集群将有助于未来的AI研究和开发。


每个集群都配备了数千个Nvidia Corp.最强大的H100 GPU,它们的规模远大于公司之前的大型集群,后者包含约16,000个Nvidia A100 GPU。


据报道,该公司一直在抢购数千块Nvidia的最新芯片,Omdia的一份报告最近称,该公司已成为该芯片制造商的最大客户之一。现在,我们知道了背后的原因。


Meta表示,将使用新的集群来微调其现有的AI系统,并训练更新、更强大的系统,包括Llama 3,即Llama 2的计划继任者。这篇博客文章是Meta首次确认正在开发Llama 3,尽管这一点之前已经广为猜测。工程师们表示,Llama 3的开发目前“正在进行中”,但没有透露何时可能会发布。


长远来看,Meta旨在创建人工通用智能(AGI)系统,这些系统在创造力方面将比现有的生成式AI模型更接近人类。在博客文章中,Meta表示新的集群将有助于推动这些雄心勃勃的计划。此外,Meta还透露,它正在升级其PyTorch AI框架,使其能够支持更大数量的GPU。


在内部结构方面


尽管这两个集群都拥有相同数量的GPU,并通过每秒400吉比特的速度的端点相互连接,但它们采用了不同的架构。其中一个基于Arista Networks公司的Arista 7800,配备Wedge400和Minipack2 OCP机架交换机,通过融合以太网网络结构实现远程直接内存访问或RDMA。另一个则是使用Nvidia自己的网络结构技术(称为Quantum2 InfiniBand)构建的。


这两个集群都是基于Meta的开源GPU硬件平台Grand Teton构建的,该平台旨在支持大规模AI工作负载。据说Grand Teton的主机到GPU的带宽是其前身Zion-EX平台的四倍,计算和数据网络带宽也是两倍,功率范围也增加了两倍。


Meta表示,这些集群采用了其最新的Open Rack电源和机架基础设施架构,该架构旨在为数据中心设计提供更大的灵活性。工程师们表示,Open Rack v3允许电源架安装在机架内的任何位置,而不是将其固定在母线排上,从而实现了更灵活的配置。


微信截图_20240313092722


此外,每个机架中的服务器数量是可定制的,这使得在服务器吞吐量能力方面实现更高效的平衡成为可能。Meta表示,这在一定程度上减少了总机架数。


在存储方面,集群使用了基于Linux的用户空间文件系统应用程序编程接口,该接口由Meta的分布式存储平台Tectonic提供支持。Meta还与一家名为Hammerspace的初创公司合作,为集群创建了一个新的并行网络文件系统。


最后,工程师们解释说,这些集群基于YV3 Sierra Point服务器平台,并配备了最先进的E1.S固态硬盘。团队指出,他们定制了集群的网络拓扑和路由架构,并部署了Nvidia的集体通信库(Collective Communications Library),这是一套针对其GPU优化的通信程序。


更多GPU即将到来


Meta在博客文章中提到,它仍致力于在AI硬件堆栈方面开展开放创新。工程师们提醒读者,该公司是最近宣布的AI联盟的成员,该联盟旨在创建一个开放的生态系统,以增强AI开发的透明度和信任度,并确保每个人都能从创新中受益。


“展望未来,我们认识到,昨天或今天有效的方法可能无法满足明天的需求。”工程师们写道。“这就是为什么我们不断评估和改进基础设施的每一个方面,从物理和虚拟层到软件层,乃至更多。”


Meta还透露,它将继续购买更多Nvidia的H100 GPU,并计划在年底前拥有超过35万个。这些GPU将用于继续构建其AI基础设施,在不久的将来,我们可能会看到更强大的GPU集群的出现。

文章来源:https://siliconangle.com/2024/03/12/meta-unveils-two-new-24k-gpu-clusters-using-develop-advanced-generative-ai/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消