
英伟达公司今日发布了一款强大的推理人工智能模型,该模型整合了文本、视觉和语音功能,能够作为更快速、更智能的代理AI应用的“大脑”。
这款模型被命名为Nemotron 3 Nano Omni,拥有约300亿个参数。作为最新的尖端模型,它采用专家混合架构,提供极低的延迟,并具备高度的灵活性和控制能力。
英伟达将视觉和音频编码器与其30B-AD3B混合MoE架构结合,消除了对单独感知模块的需求,使其AI模型能够将所有功能整合到一个模型中。公司表示,这使得模型在规模上提高了效率,并提供了比市场上其他开放全能模型快九倍的吞吐量。
“要构建有用的代理,不能等待几秒钟让模型解释屏幕,”H公司首席执行官Gautier Cloix表示。“通过基于Nemotron 3 Nano Omni构建,我们的代理可以快速解释全高清屏幕录制——这在以前是不现实的。”
结果是更低的成本和更高的可扩展性。由于其较小的尺寸,它也可以被压缩到足以在高端消费硬件上运行,并在企业云部署中高效执行。
公司表示,该模型设计为可以与其他专有云模型或其他英伟达Nemotron开放模型一起运行,例如用于高频执行的Nemotron 3 Super或用于复杂规划的Super。
新模型能够快速理解文档、计算机显示、语音活动、视频等。这使其成为与人合作和连接到更复杂机器状态的理想接口。它可以从用户那里获取对话回复,并迅速将其转化为推理。
英伟达表示,Nemotron家族——包括Ultra、Super和Nano——在过去一年中已被下载超过5000万次。Omni变体将家族的能力扩展到多模态和代理领域。
新模型现已在Hugging Face、OpenRouter和build.nvidia.com上作为英伟达NIM微服务。作为一个开放、轻量级的模型,它也被设计为供开发者在本地硬件上构建和部署,包括英伟达DGX Spark和其他硬件。
