谷歌的EmbeddingGemma如何解锁新的边缘AI应用

2025年09月08日 由 佚名 发表 43 0

屏幕截图2025-09-08100551_28848(1)


在AI社区期待Gemini 3发布的同时,谷歌正在实施其旗舰大型语言模型家族的补充策略:构建一系列小型、专用的模型以提高效率。继最近发布的Gemma 3 270M小型语言模型之后,新的EmbeddingGemma作为其专用版本问世。


EmbeddingGemma是一个仅编码器模型,可以生成用于搜索、分类、相似性测量等的嵌入。这使其成为实现强大、私密AI的关键组件,能够完全在您的设备上运行。


深入了解:EmbeddingGemma的架构


EmbeddingGemma在其规模上提供了最先进的文本理解能力。它是拥有不到5亿参数的最高排名的开放多语言文本嵌入模型,在大规模文本嵌入基准(MTEB)上,这是文本嵌入评估的黄金标准。



该模型有3.08亿个参数,并在超过100种语言上进行了训练,具有广泛的适用性。其设计专注于效率;通过量化,该模型可以在不到200MB的RAM上运行,使其适合资源受限的硬件,如手机。


该模型的性能来自于专门为创建嵌入而设计的架构。它使用Gemma 3变压器骨干但通过双向注意力进行修改。这使得模型能够考虑文本序列的完整上下文,将其转化为编码器,在嵌入任务上可以超越标准的基于解码器的LLM。这种仅编码器的设计是一个深思熟虑的选择,反映了其他紧凑型Gemma模型中任务特定专业化的相同理念。


两项关键技术使EmbeddingGemma高度高效。第一项是量化感知训练(QAT)。与其在全精度下训练模型然后压缩,不如在训练过程中直接融入低精度格式。这种方法显著减少了最终模型的大小和内存需求,同时保持高精度。


第二项技术是套娃表示学习(MRL)。这种方法以俄罗斯套娃命名,训练模型将最重要的信息放在其输出向量的初始维度中。这允许开发者使用完整的768维嵌入以获得最高质量,或将其截断为较小的尺寸如256或128以加快处理速度和降低存储成本,所有这些都来自同一个模型。MRL方案确保在截断输出维度时保留最重要的信息。


EmbeddingGemma的实际应用


EmbeddingGemma的一个重要应用是支持设备上的检索增强生成(RAG),它与其生成型兄弟模型协同工作。在这个系统中,EmbeddingGemma从查询和文档中生成高质量的嵌入,然后可以由向量存储库使用,以从用户的本地文档中找到最相关的信息。一旦找到,这个上下文被传递给一个紧凑的“生成器”,如Gemma 3模型,以生成一个有根据的响应。


这种双模型方法允许每个组件发挥其最佳作用,在设备上创建一个强大而高效的系统。这使得私人、个性化的搜索可以在用户的电子邮件、笔记和文件中进行,而无需任何数据离开设备。谷歌团队展示的一个有趣的例子是使用EmbeddingGemma从用户访问过的网页中填充设备上的向量存储。用户可以查询该存储库以更深入地搜索其浏览历史。


EmbeddingGemma的其他应用包括分类。例如,您可以使用它在浏览器上对电子邮件和社交媒体帖子进行情感分析。


如何访问EmbeddingGemma


EmbeddingGemma可以通过流行的平台如Hugging Face和Kaggle获得。对于开发者,EmbeddingGemma可以直接集成到主要的AI框架中,包括Sentence Transformers、LangChain和LlamaIndex,简化了其在现有工作流程中的使用。该模型还支持一系列流行的本地推理工具,如Ollama、LMStudio和llama.cpp,MLX在Apple Silicon上提供优化性能。对于基于网络的AI,它可以通过Transformers.js直接在浏览器中运行。


EmbeddingGemma也被设计用于定制。开发者可以针对特定领域或任务微调模型,以实现更强的性能。在一个例子中,Hugging Face团队微调了基础模型在医学指令和检索数据集(MIRIAD)上。结果模型在从科学医学论文中检索段落的任务上取得了显著的性能提升。它最终超越了体积是其两倍的通用嵌入模型,展示了为特定行业创建高度专业化和高效工具的潜力。


EmbeddingGemma符合“专家舰队”的愿景,其中复杂任务不是由一个单一的模型处理,而是由一系列小型、专用组件处理。


在这个范式中,EmbeddingGemma是一个基础的乐高积木——“检索”部分。它被设计为与其他模型如Gemma 3 270M模型一起工作。这种可组合的方法为特定任务提供了更低的成本、更高的速度和更好的准确性。它还通过使关键操作在边缘设备上运行而不将敏感数据发送到第三方云服务,提供了更大的控制和隐私。



文章来源:https://bdtechtalks.com/2025/09/06/google-embeddinggemma-encoder/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消