Google DeepMind 正式发布 Gemma 4 12B 开源大模型,普通笔记本电脑也能部署搭载多模态能力的 AI。
据谷歌介绍,该模型原生支持文本、图像、音频统一解析,无需搭配独立编码器,有效缩短运算耗时、降低内存占用与响应延迟。官方称,该模型仅依靠 16GB 内存就能本地部署,各项基准测试性能逼近参数规模翻倍的 26B 版本,同时它也是 Gemma 系列首款原生集成音频处理的中型参数模型。
Gemma 4 12B 可实现语音识别、代码生成、视频内容解析。根据开发文档,该模型能够结合画面帧与音频信息,解析数分钟长度的视频片段。在实测演示中,它完整处理了一段 5 分钟谷歌开发者大会主题演讲视频:按每秒 1 帧提取共 313 帧画面并同步解析音频。

该模型已上架 Hugging Face、Ollama、LM Studio 等平台,采用 Apache 2.0 开源协议,支持商用。
