谷歌推出DataGemma模型，旨在减少语言模型中的事实错误

2024年09月13日由 daydream 发表 556 0

谷歌最近宣布了DataGemma，这是其基于Gemini架构的开放型Gemma模型的两个新版本，它们依赖于谷歌Data Commons中的现实世界统计数据。谷歌声称，DataGemma是首个通过此类方式减少“幻觉”（即事实错误）的开放模型。

微信截图_20240913102153

长期以来，语言模型在处理涉及数值或统计数据的任务时，常常出现事实错误，这是一个亟待解决的问题。谷歌的Data Commons是一个包含超过2400亿个数据点的仓库，数据来源于联合国、疾病控制与预防中心等可信机构。

DataGemma通过两种关键技术——检索交织生成（RIG）和检索增强生成（RAG），在生成过程中将模型输出与现实世界数据相结合，以减少事实错误。RIG在生成响应前主动查询可信源，而RAG则在生成前从Data Commons中检索相关信息，并通过Gemini 1.5 Pro的长上下文窗口功能提供全面答案。

微信截图_20240913103052

初步研究结果显示，这两种技术显著提高了模型处理数值事实和统计查询的准确性。然而，研究也指出了存在的挑战，包括Data Commons自然语言接口的精度问题、模型生成不相关问题以及数据覆盖范围不足等。

具体而言，使用RIG方法时，事实准确性从基准的5-17%大幅提升至约58%，但在约33-27%的案例中，模型或Data Commons提供了错误信息。而RAG方法在引用具体数值时表现出色，准确率高达98-99%，但在基于统计数据进行推断时，有6-20%的案例出现错误或不实推断。

谷歌强调，DataGemma目前主要用于学术和研究目的，尚未准备好商业化或面向公众使用。未来，团队计划扩大训练数据集、改进Data Commons的自然语言处理能力，并探索展示事实核查结果的用户界面。

此外，谷歌还认识到该工作的伦理影响，已进行红队测试以检查潜在危险查询，并承诺持续评估和完善模型行为。随着研究的深入，DataGemma有望为创建更可信、更可靠的AI系统奠定基础，并在医疗、政策制定、教育和科学研究等领域产生广泛影响。

文章来源：https://www.maginative.com/article/google-introduces-datagemma-to-improve-ai-accuracy-with-trusted-data-sources/

标签：

谷歌 DataGemma 模型

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Hume发布EVI 2，新一代语音语言融合模型

下一篇苹果发布新型多模态大语言模型Ferret-UI，专注UI理解

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术