英伟达推出Nemotron 3 Nano Omni，具备视觉和语音功能，适用于强大的代理AI应用

2026年04月29日由佚名发表 775 0

英伟达公司今日发布了一款强大的推理人工智能模型，该模型整合了文本、视觉和语音功能，能够作为更快速、更智能的代理AI应用的“大脑”。

这款模型被命名为Nemotron 3 Nano Omni，拥有约300亿个参数。作为最新的尖端模型，它采用专家混合架构，提供极低的延迟，并具备高度的灵活性和控制能力。

英伟达将视觉和音频编码器与其30B-AD3B混合MoE架构结合，消除了对单独感知模块的需求，使其AI模型能够将所有功能整合到一个模型中。公司表示，这使得模型在规模上提高了效率，并提供了比市场上其他开放全能模型快九倍的吞吐量。

“要构建有用的代理，不能等待几秒钟让模型解释屏幕，”H公司首席执行官Gautier Cloix表示。“通过基于Nemotron 3 Nano Omni构建，我们的代理可以快速解释全高清屏幕录制——这在以前是不现实的。”

结果是更低的成本和更高的可扩展性。由于其较小的尺寸，它也可以被压缩到足以在高端消费硬件上运行，并在企业云部署中高效执行。

公司表示，该模型设计为可以与其他专有云模型或其他英伟达Nemotron开放模型一起运行，例如用于高频执行的Nemotron 3 Super或用于复杂规划的Super。

新模型能够快速理解文档、计算机显示、语音活动、视频等。这使其成为与人合作和连接到更复杂机器状态的理想接口。它可以从用户那里获取对话回复，并迅速将其转化为推理。

英伟达表示，Nemotron家族——包括Ultra、Super和Nano——在过去一年中已被下载超过5000万次。Omni变体将家族的能力扩展到多模态和代理领域。

新模型现已在Hugging Face、OpenRouter和build.nvidia.com上作为英伟达NIM微服务。作为一个开放、轻量级的模型，它也被设计为供开发者在本地硬件上构建和部署，包括英伟达DGX Spark和其他硬件。

文章来源：https://siliconangle.com/2026/04/28/nvidia-introduces-nemotron-3-nano-omni-vision-speech-powerful-agentic-ai-use/

标签：

英伟达

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 DeepSeek-V4 技术报告作者名单公布，核心团队人才流失

下一篇亚马逊重新设计Quick为主动桌面应用程序，助力高效工作

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术

每个人都应该知道的48个AI术语

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

Adobe Firefly

Adobe最新推出的AI图片生成工具

文心一格

AI艺术和创意辅助平台

本周热门

热门企业

热门职位

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市