谷歌全面推出以移动设备为重点的AI模型Gemma 3n

2025年06月27日 由 佚名 发表 43 0

谷歌宣布全面发布其最新的设备端AI模型Gemma 3n,将多模态功能直接引入智能手机和其他边缘设备。该AI模型首次预览于上个月进行。


屏幕截图2025-06-27160836

“在这个令人振奋的进展基础上,我们很高兴宣布Gemma 3n的全面发布。虽然上个月的预览让大家初见端倪,但今天我们解锁了这一移动优先架构的全部潜力。Gemma 3n是为帮助塑造Gemma开发者社区而设计的。它支持您喜爱的工具,包括Hugging Face Transformers、llama.cpp、Google AI Edge、Ollama、MLX等,使您能够轻松地为特定的设备端应用进行微调和部署。这篇文章是为开发者准备的深入探讨:我们将探索Gemma 3n背后的一些创新,分享新的基准测试结果,并向您展示如何从今天开始构建,”公司在博客文章中宣布。


Gemma 3n采用了一种新的架构设计,称为MatFormer,即Matryoshka Transformer的缩写。谷歌通过将其比作俄罗斯套娃来解释这种结构:模型包含嵌套在更大模型中的较小、功能齐全的子模型。这种设计使开发者能够根据可用硬件动态调整性能。Gemma 3n目前有两个主要版本:E2B,最低只需2GB内存即可高效运行,和E4B,约需3GB内存。


尽管它们的原始参数数量分别为50亿和80亿,这些模型的资源消耗与小得多的模型相当。这种效率通过“每层嵌入(PLE)”进一步提升,PLE可以将某些计算工作负载从设备的图形处理器转移到中央处理器,从而释放加速器上的宝贵内存。此外,引入了KV缓存共享以加速扩展音频和视频输入的处理,谷歌声称这一功能可以将响应时间提高多达两倍。


Gemma 3n的多模态能力是一个重要亮点。对于基于语音的应用,模型集成了一个内置的音频编码器,改编自谷歌的通用语音模型。这使得它能够在设备上完全执行语音转文本转换和语言翻译等任务,而无需互联网连接。初步评估显示,在英语与主要欧洲语言(包括西班牙语、法语、意大利语和葡萄牙语)之间的翻译中表现尤为出色。音频编码器可以以160毫秒的块处理音频,从而实现对声音上下文的详细分析。


该模型的视觉理解由谷歌最新的轻量级视觉编码器MobileNet-V5提供支持。该系统能够在设备(如Google Pixel)上以每秒高达60帧的速度处理视频流,实现设备上的流畅实时视频分析。尽管其尺寸和速度经过优化,MobileNet-V5据报道在性能和准确性上均超越了早期的视觉模型。Gemma 3n还支持超过140种语言的文本处理,并能理解35种语言的内容,为全球可访问的设备端AI设定了新的基准。


开发者可以使用一系列流行的工具和框架轻松访问和集成Gemma 3n,包括Hugging Face Transformers、Ollama、MLX和llama.cpp。为了进一步激发创新,谷歌启动了“Gemma 3n影响挑战”,邀请开发者创建利用该模型的离线和多模态能力的应用,获胜作品将分享15万美元的奖金。这为在互联网连接不可靠或不存在的偏远地区,以及在数据传输到云端模型不可行的隐私敏感场景中开发AI驱动的应用程序打开了可能性。


文章来源:https://thetechportal.com/2025/06/27/google-announces-full-launch-of-gemma-3n-its-mobile-focused-ai-model/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消