bd@atyun.com
我们都知道人工智自动化重复任务:包括监控、故障排除和升级,节省时间的同时降低了人为错误的风险。
然而,人工智能并不能替代经验丰富的网络管理员的专业技能。AI 的作用是增强您的能力 ,就像一个虚拟助手。因此,AI 可能成为您最好的朋友,但生成式人工智能也是一种新的数据中心工作负载,带来了一种新的范式转换:NVIDIA 集体通信库 (NCCL)。
数据中心的演变
网络管理员必须应对许多其他最近的变化:
不久之前,我们可能通过对特定网络命令行界面(CLI)的专业技能水平来衡量新网络管理员的价值。随着混合云计算和 DevOps 的出现,从 CLI 到 API 的趋势日益增长。现在,Ansible、SALT 和 Python 等技能比 Cisco 认证更有价值。
即使监控和管理网络的方式也发生了变化。您已经从使用 SNMP 和 NetFlow 跨数据中心轮询设备的工具转向新的基于交换机的遥测模型,其中交换机主动流式传输基于流的诊断详细信息。
您在将新的工作负载引入数据中心方面经验丰富,其中许多具有独特的网络需求。您已经看到传统数据库被数据分析和大数据集群所取代。
现在,当任务是构建一个人工智能集群时,我们很容易认为人工智能只是更大、更快的大数据应用程序。但是人工智能是不同的,如果没有正确的工具,人工智能可能会很难实现。
生成式 AI 和 NCCL 的影响
一家大型企业的网络管理员,首席技术官参加了GTC2023会议,并了解了生成式人工智能。网络管理员希望通过构建像ChatGPT这样的大型语言模型来改变首席技术官的业务方式,用来最终和用户进行响应和互动。该模型必须经过训练。这需要一个由许多 GPU 加速服务器组成,通过一条极快的、高速的网络连接的大型人工智能培训集群。
这个人工智能训练集群带来了许多新的挑战:
需要新的监控工具:它们如何确定人工智能和 NCCL 是否运行良好?
以下是NCCL的官方解释:
首先,NVIDIA 集体通信库 (NCCL) 是一种可优化用于 NVIDIA GPU 和网络的多 GPU 和多节点通信基元的实现。NCCL 提供了 all-gather、all-reduce、broadcast、reduce、reduce-scatter 等常规路由,以及面向点对点的发送和接收函数,这些函数经过优化,实现了通过节点内的 PCIe 和 NVLink 高速互连以及跨节点的 NVIDIA Mellanox Network 实现高带宽和低延迟。
来源:NVIDIA 集体通信库 (NCCL)
对于网络管理员来说,NCCL 控制着您全新的 AI 集群的流量模式。这意味着您需要一种为 NCCL 优化的网络设计,为 NCCL 优化的网络监控工具,以及为 NCCL 优化的以太网交换机。
NCCL 是实现 AI 集群工作负载高性能、一致性和可预测性的关键。同时,NCCL 也是网络管理员和数据科学家的交集点:两者都需要掌握并理解 NCCL。当两者都能流利地掌握 NCCL 时,NCCL 可以成为这些具有不同技能需求的专业人士之间的罗塞塔石。
鉴于 NCCL 的重要性,选择正确的网络可以决定 AI 集群的性能成败。AI 集群有一些独特的需求:
下一步
您的工作是保持网络不会成为 AI 集群的瓶颈,但是为了进行 AI 网络连接,需要什么呢?高带宽,低延迟和高韧性是必要但不充分的。您如何选择正确的基础设施?
为 AI 进行网络连接可能很困难。关于“没有人因为购买 X 产品而被解雇”的格言早已过时,因为 AI 的 X 因素不同于通用计算。即使是拥有专门的 AI 工程团队进行集群性能预测试验的大型 IT 店,在增加更多用户和同时运行多个作业时,性能急剧下降的情况也时常发生,令人惊讶。
保证 AI 集群性能的最佳方式是遵循 NVIDIA 公布的 AI 参考架构之一,并使用具有 AI 可见性功能的基础设施来验证 AI 集群的运行和健康状态。
无论您的 AI 集群使用以太网还是 InfiniBand,NVIDIA 提供工具、支持和培训,以帮助您成功地成为 AI 网络连接的专家。
来源:https://developer.nvidia.com/blog/navigating-generative-ai-for-network-admins/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
要发表评论,您必须先登录。