英伟达推出Nemotron 3 Nano Omni,具备视觉和语音功能,适用于强大的代理AI应用

2026年04月29日 由 佚名 发表 150 0


英伟达公司今日发布了一款强大的推理人工智能模型,该模型整合了文本、视觉和语音功能,能够作为更快速、更智能的代理AI应用的“大脑”。 


这款模型被命名为Nemotron 3 Nano Omni,拥有约300亿个参数。作为最新的尖端模型,它采用专家混合架构,提供极低的延迟,并具备高度的灵活性和控制能力。 


英伟达将视觉和音频编码器与其30B-AD3B混合MoE架构结合,消除了对单独感知模块的需求,使其AI模型能够将所有功能整合到一个模型中。公司表示,这使得模型在规模上提高了效率,并提供了比市场上其他开放全能模型快九倍的吞吐量。 


“要构建有用的代理,不能等待几秒钟让模型解释屏幕,”H公司首席执行官Gautier Cloix表示。“通过基于Nemotron 3 Nano Omni构建,我们的代理可以快速解释全高清屏幕录制——这在以前是不现实的。” 


结果是更低的成本和更高的可扩展性。由于其较小的尺寸,它也可以被压缩到足以在高端消费硬件上运行,并在企业云部署中高效执行。 


公司表示,该模型设计为可以与其他专有云模型或其他英伟达Nemotron开放模型一起运行,例如用于高频执行的Nemotron 3 Super或用于复杂规划的Super。 


新模型能够快速理解文档、计算机显示、语音活动、视频等。这使其成为与人合作和连接到更复杂机器状态的理想接口。它可以从用户那里获取对话回复,并迅速将其转化为推理。 


英伟达表示,Nemotron家族——包括Ultra、Super和Nano——在过去一年中已被下载超过5000万次。Omni变体将家族的能力扩展到多模态和代理领域。 


新模型现已在Hugging Face、OpenRouter和build.nvidia.com上作为英伟达NIM微服务。作为一个开放、轻量级的模型,它也被设计为供开发者在本地硬件上构建和部署,包括英伟达DGX Spark和其他硬件。 


文章来源:https://siliconangle.com/2026/04/28/nvidia-introduces-nemotron-3-nano-omni-vision-speech-powerful-agentic-ai-use/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消