谷歌的VaultGemma为隐私保护AI性能设立了新标准

2025年09月15日 由 佚名 发表 35 0


谷歌有限责任公司的两个主要研究单位在大型语言模型隐私领域取得了重大进展,推出了一种名为VaultGemma的新模型,这是全球最强大的“差分隐私LLM”。


这是一个基于谷歌Gemma架构的10亿参数模型,采用先进的数学算法来防止敏感数据泄露。差分隐私是一种数学算法,用于在共享数据时保护隐私,确保包含或排除某个信息不会显著影响整体结果。通过向数据集中添加控制噪声,使得任何人都难以识别其中的具体信息。


这种技术长期以来被用于受监管行业以保护敏感信息,在AI隐私方面也有巨大潜力。然而,将其应用于LLM一直具有挑战性,导致模型的稳定性和效率出现权衡。VaultGemma旨在克服这些问题,使得差分隐私的使用不影响性能。


无妥协的AI隐私

VaultGemma由谷歌研究团队与谷歌DeepMind合作开发。研究人员在博客文章中表示,他们专注于消除差分隐私训练中固有的计算-隐私-效用权衡。


他们面临的挑战是传统的扩展定律,即根据计算资源和数据规模预测AI模型性能的规律,在应用差分隐私时不再适用,因为噪声增加和批量大小变大。因此,团队设计了新的扩展定律,考虑到这些因素,以便开发更大、更强的私有LLM。


VaultGemma从头开始使用差分隐私框架进行训练,以确保它不能记住或泄露敏感数据。研究人员表示,这一关键特性对金融和医疗等受监管行业的AI应用具有重要意义。


在谷歌对多个基准测试(如MMLU和Big-Bench)的评估中,VaultGemma展示了远超早期差分隐私模型的性能,更接近于具有相似参数数量的非隐私LLM,而不牺牲隐私。例如,结果显示它在推理和问答等任务上的能力与早期的非隐私Gemma模型相当,但没有暴露其训练数据的风险。



VaultGemma的一个关键创新是研究人员调整其训练协议,以应对噪声增加导致的不稳定性。谷歌的研究显示,差分隐私如何改变LLM的学习动态。因此,差分隐私模型需要更大的批量大小,包含数百万个示例来稳定训练。这通常意味着更高的计算需求,但研究人员想出了一些技巧来降低这些成本,可能降低私有模型的采用门槛。


在架构上,VaultGemma是一个仅解码器的Transformer模型,基于谷歌的Gemma 2架构,具有26层并使用多查询注意力。一个关键的设计选择是将序列长度限制为仅1,024个标记,这有助于管理私有训练的高计算需求,研究人员表示。开发由一套新颖的“DP扩展定律”指导,为在计算能力、隐私预算和模型效用之间平衡权衡提供了框架。


推进私有AI

谷歌的研究人员表示,他们将VaultGemma及其权重和代码库以开源许可证的形式提供在Hugging Face和Kaggle上,以便民主化私有AI的访问。这一步与谷歌通常的方法形成鲜明对比,其最强大的专有LLM如Gemini Pro是AI“黑箱”的经典例子。


谷歌开源VaultGemma的决定可能是一个战略举措,旨在在不断变化的法规之前在AI隐私方面取得领先,并加速在数据敏感性问题通常阻碍创新的行业中的创新。研究人员表示,谷歌的差分隐私扩展定律应该适用于更大规模的私有LLM,可能达到数万亿参数。当企业面临数据隐私问题时,VaultGemma可以作为安全AI创新的蓝图。


谷歌已经在考虑与主要医疗保健提供商合作的可能性,并设想VaultGemma用于分析敏感的患者数据而没有隐私泄露的风险。



文章来源:https://siliconangle.com/2025/09/14/googles-vaultgemma-sets-new-standards-privacy-preserving-ai-performance/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消