揭开减少LLM幻觉的秘密:利用数据库的力量

2023年07月26日 由 Camellia 发表 548399 0
幻觉从一开始就困扰着LLM,加剧了人们对其产生可信错误信息能力的担忧。虽然顶级人工智能智库已经尝试了各种方法来减少LLM的幻觉,但事实是,由于它们的架构,幻觉是语言模型不可避免的一部分。



虽然没有直接从内部限制LLM的方法,但可能存在一种基于架构的解决方案来解决这个根深蒂固的问题。在人工智能浪潮中出现了爆炸式增长的向量数据库可能就是我们阻止LLM产生幻觉的秘密武器。

一家名为MyScale的公司使用一种称为Vector SQL的技术创建了一种架构,其中LLM可以查询向量数据库,而不是试图自己生成用户查询的答案。虽然这种方法将LLM归入更大的数据恢复机制的一部分,但它显示出可以减少幻觉,并使LLM适合广泛使用。

Vector SQL解释


为了理解为什么Vector SQL在遏制幻觉方面如此有效,我们首先必须理解LLM为什么会产生幻觉。LLM生成文本的主要方法是通过统计学预测下一个token,通过利用其训练数据构造单词和句子。由于一些单词在训练数据中一个接一个出现的统计概率,LLM通常产生以可信方式呈现的错误信息。

通过使用向量数据库,LLM可以查询一个人类编写内容的索引,帮助它支撑其陈述。在这种情况下,LLM不会从自己的训练数据生成答案,而是在数据库中查询相关信息,这提供了一个比仅生成文本更好的解决方案。虽然这种方法需要过滤器,以防止模型“混淆”,但仍然比原始文本生成方法更好。

向量数据库的下一个步骤是通过SQL代码实现自动化。通过利用LLM的代码生成能力,我们可以让它为用户的自然语言查询编写SQL查询。然后,将其传递给一个Vector SQL引擎,进行两种数据库类型之间的转换。然后将知识传递回LLM,将数据重新打包成可读的人类格式并呈现给用户。

Vector SQL具有许多好处,例如提高效率、更好的灵活性支持功能和所有SQL的好处。由于SQL代码普遍存在于其训练数据中,LLM可以很容易地生成SQL代码,而且PostgreSQL和Clickhouse等数据库解决方案已经为人工智能集成了向量搜索功能。即使LLM没有接受过SQL数据的训练,也可以通过提示来构建Vector SQL查询的LLM。这使得Vector SQL方法与现成的LLM兼容。

虽然这种具体方法无疑是一种让LLM获得人类可读数据的新方法,但如今的许多顶级聊天机器人已经使用类似的方法访问数据。虽然这些模型并没有完全消除幻觉,但构建良好的解决方案在减少幻觉的发生率方面发挥了重要作用。

准确LLM的未来?


某些实现,如微软的Bing Chat,专注于成为网络搜索的自然语言接口,而不是独立的LLM。这意味着解决方案的首要任务是为用户提供搜索结果。微软通过创建一个名为Prometheus的系统实现了这一目标。虽然对Prometheus的内部工作原理知之甚少,但微软表示:“Prometheus是一种首创的人工智能模型,它结合了最新且全面的Bing指数、排名和答案结果以及OpenAI最先进的GPT模型的创造性推理能力。”

微软搜索和人工智能企业副总裁Jordi Ribas进一步在一篇博客中解释说,Prometheus利用GPT模型,通过他所谓的Bing Orchestrator来“生成一组内部查询”。这些查询允许答案与查询保持相关,同时通过Bing搜索引擎获取最新数据。这种方法称为接地,旨在通过让模型得到相关和最新信息来减少不准确性,从而降低幻觉产生的可能。Prometheus甚至在每个观点上包含链接引文,让用户对机器人提供的答案更有信心。

虽然Prometheus系统很可能通过某种方式使用了向量数据库来实现这一点,但微软并未透露任何细节。然而,随着Vector SQL和其他类似的架构解决方案的兴起,无幻觉的LLM时代可能即将到来。

 

来源:https://analyticsindiamag.com/the-secret-to-reducing-llm-hallucinations-lies-in-the-database/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消