谷歌全面推出以移动设备为重点的AI模型Gemma 3n

2025年06月27日由佚名发表 1731 0

谷歌宣布全面发布其最新的设备端AI模型Gemma 3n，将多模态功能直接引入智能手机和其他边缘设备。该AI模型首次预览于上个月进行。

屏幕截图2025-06-27160836

“在这个令人振奋的进展基础上，我们很高兴宣布Gemma 3n的全面发布。虽然上个月的预览让大家初见端倪，但今天我们解锁了这一移动优先架构的全部潜力。Gemma 3n是为帮助塑造Gemma开发者社区而设计的。它支持您喜爱的工具，包括Hugging Face Transformers、llama.cpp、Google AI Edge、Ollama、MLX等，使您能够轻松地为特定的设备端应用进行微调和部署。这篇文章是为开发者准备的深入探讨：我们将探索Gemma 3n背后的一些创新，分享新的基准测试结果，并向您展示如何从今天开始构建，”公司在博客文章中宣布。

Gemma 3n采用了一种新的架构设计，称为MatFormer，即Matryoshka Transformer的缩写。谷歌通过将其比作俄罗斯套娃来解释这种结构：模型包含嵌套在更大模型中的较小、功能齐全的子模型。这种设计使开发者能够根据可用硬件动态调整性能。Gemma 3n目前有两个主要版本：E2B，最低只需2GB内存即可高效运行，和E4B，约需3GB内存。

尽管它们的原始参数数量分别为50亿和80亿，这些模型的资源消耗与小得多的模型相当。这种效率通过“每层嵌入（PLE）”进一步提升，PLE可以将某些计算工作负载从设备的图形处理器转移到中央处理器，从而释放加速器上的宝贵内存。此外，引入了KV缓存共享以加速扩展音频和视频输入的处理，谷歌声称这一功能可以将响应时间提高多达两倍。

Gemma 3n的多模态能力是一个重要亮点。对于基于语音的应用，模型集成了一个内置的音频编码器，改编自谷歌的通用语音模型。这使得它能够在设备上完全执行语音转文本转换和语言翻译等任务，而无需互联网连接。初步评估显示，在英语与主要欧洲语言（包括西班牙语、法语、意大利语和葡萄牙语）之间的翻译中表现尤为出色。音频编码器可以以160毫秒的块处理音频，从而实现对声音上下文的详细分析。

该模型的视觉理解由谷歌最新的轻量级视觉编码器MobileNet-V5提供支持。该系统能够在设备（如Google Pixel）上以每秒高达60帧的速度处理视频流，实现设备上的流畅实时视频分析。尽管其尺寸和速度经过优化，MobileNet-V5据报道在性能和准确性上均超越了早期的视觉模型。Gemma 3n还支持超过140种语言的文本处理，并能理解35种语言的内容，为全球可访问的设备端AI设定了新的基准。

开发者可以使用一系列流行的工具和框架轻松访问和集成Gemma 3n，包括Hugging Face Transformers、Ollama、MLX和llama.cpp。为了进一步激发创新，谷歌启动了“Gemma 3n影响挑战”，邀请开发者创建利用该模型的离线和多模态能力的应用，获胜作品将分享15万美元的奖金。这为在互联网连接不可靠或不存在的偏远地区，以及在数据传输到云端模型不可行的隐私敏感场景中开发AI驱动的应用程序打开了可能性。

文章来源：https://thetechportal.com/2025/06/27/google-announces-full-launch-of-gemma-3n-its-mobile-focused-ai-model/

标签：

谷歌

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇谷歌的Gemini CLI将AI引入终端，推动Gemini的广泛应用

下一篇 Salesforce首席执行官Marc Benioff称人工智能在公司中承担了多达一半的工作

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术