全面剖析知识检索领域

2023年11月17日由 alex 发表 1126 0

为了实现从消费者到企业部署的过渡，应当围绕模型外部信息构建以检索为中心的生成（RCG）解决方案。

随着生成式人工智能（GenAI）开始在各行各业广泛部署，用于多种业务用途，公司需要提供效率、准确性、安全性和可跟踪性的模型。像ChatGPT这样模型的原始架构已经显示出在满足这些关键要求方面存在重大差距。在早期的GenAI模型中，检索被作为一种事后思考的方式用来解决依赖于参数记忆中存储信息的模型的不足。现行模型通过增强解决方案平台，加入了检索增强生成（RAG）前端，以提取模型外部的信息，已在这一问题上取得了显著进展。也许现在是时候进一步重新思考生成性人工智能的架构，并从RAG系统（在其中检索是一个附加的部分）转移至围绕检索作为核心访问信息能力构建的检索为中心的生成（RCG）模型。

检索为中心的生成模型可以定义为一个生成式人工智能解决方案，设计用于大多数数据驻留在模型参数记忆之外的系统，并且大多数数据在预训练或微调时并未看到。通过RCG，GenAI模型的主要角色是解释公司索引数据语料库或其他策划内容中检索到的丰富信息。与其记忆数据，模型专注于针对特定构造、关系和功能进行精细调整。生成输出中数据的质量预计将接近100%的准确性和时效性。在预训练中未见过的大量数据的正确解释和使用能力，需要模型提高抽象层次和使用模式作为关键的认知能力，以识别信息中的复杂模式和关系。这些对检索的新要求，加上自动学习模式图的能力，将导致大型语言模型（LLM）的预训练和微调进一步演化。

在 GenAI 模型中大幅减少对参数记忆中记忆数据的使用，而依赖可验证的索引来源，将改善溯源并在提高精确性和性能方面发挥重要作用。到目前为止，GenAI 架构中的普遍假设是模型中的数据越多越好。基于这种当前占主导地位的结构，预计大多数代币和概念已被摄入并交叉映射，以便模型能够根据其参数记忆生成更好的回答。然而，在常见的商业场景中，用于生成输出的数据的绝大多数预期来自检索输入。我们现在观察到，模型中数据越多，依赖检索得到的知识时，会导致信息冲突或包含无法与其来源追踪或验证的数据。

在数据主要来自检索的商业环境中，目标系统需要擅长解释看不见的相关信息，以满足公司要求。此外，大型向量数据库的普及和上下文窗口大小的增加（例如，OpenAI 最近将 GPT-4 Turbo 的上下文窗口从 32K 增加到 128K）正将模型转向推理和解释看不见的复杂数据。模型现在需要智能，通过利用复杂检索和微调结合，将广泛数据转变为有效知识。随着模型变得以检索为中心，创造和利用模式的认知能力将成为核心。

消费者与商业使用 GenAI

经历了 AI 模型规模和复杂性的十年快速增长，2023 年标志着转向效率和生成 AI 的针对性应用的转变。从消费者转向商业使用是推动这一变化的关键因素之一，影响三个层面：数据质量、数据来源和目标用途。

● 数据质量：为公司生成内容和分析时，95% 的准确性是不够的。企业需要接近或完全准确。专门针对特定任务进行微调和管理所用数据的质量，都是保证输出质量所必需的。此外，数据需要可追踪和可验证。溯源很重要，检索是确定内容来源的核心。

● 数据来源：在商业应用中，绝大多数数据预期将从可信的外部来源以及专有的商业/企业数据（包括关于产品、资源、客户、供应链、内部运营等信息）中策划。检索是访问最新和最广泛的专有数据集的核心，这些数据没有在模型中预先训练。不管是大模型还是小模型都可能在使用来自自身内存的数据与可验证、可追踪数据来源的数据时出现溯源问题。如果数据存在冲突，可能会混淆模型。

● 目标用途：企业用的模型构建和功能往往专注于一组用途和数据类型。当 GenAI 功能部署在特定的工作流程或商业应用中时，不太可能需要全能型功能。而且由于数据主要来自检索，目标系统需要擅长以公司特定要求的特定方式解释模型看不见的相关信息。

转向检索中心生成：围绕索引信息提取构建架构

Meta AI 和大学合作者在 2021 年引入了检索增强生成，以解决溯源问题和在大型语言模型 (LLM) 中更新世界知识的问题。研究人员将 RAG 作为一种通用方法，将非参数记忆添加到预训练的参数记忆生成模型中。非参数记忆使用了通过预训练检索器访问的维基百科密集向量索引。在记忆数据较少的紧凑型模型中，强调索引数据的广度和质量，因为模型不能依赖记忆信息来满足商业需要。RAG 和 RCG 都可以使用相同的检索器方法，通过在推理时动态从策划的语料库中拉取相关知识。它们在系统放置信息的方式以及对以前看不见数据的解释预期方面有所不同。在 RAG 中，模型本身是主要信息源，并由检索数据辅助。相比之下，在 RCG 中，大多数数据位于模型参数记忆之外，使得解释看不见的数据成为模型的主要角色。

值得注意的是，许多当前的 RAG 解决方案依靠像 LangChain 或 Haystack 这样的流程，将前端检索与独立的向量存储结合到一个没有预先训练检索的 GenAI 模型。这些解决方案提供了一个环境，用于索引数据来源、模型选择和模型行为训练。其他方法例如 Google Research 的 REALM，正在尝试与集成检索的端到端预训练。当前，OpenAI 正在优化其检索 GenAI 路径，而不是将创建流程的任务留给生态系统去完成。该公司最近发布了 Assistants API，它检索专有领域数据、产品信息或用户文档，这些数据来自模型之外。

在其他示例中，像英特尔实验室的fastRAG这样的快速检索器模型使用预训练的小型基础模型，无需任何附加训练，就可以从知识库中提取所需信息，提供更可持续的解决方案。作为开源Haystack GenAI框架的扩展，fastRAG使用检索器模型通过检索外部知识库中的当前文档来生成会话式回答。此外，Meta的一个研究团队最近发表了一篇论文，介绍了一种检索增强的双重指令调整（RA-DIT），“一种轻量级的微调方法，可以为任何大型语言模型装配检索功能。”

从RAG到RCG模型的转变挑战了训练中信息的作用。与RAG相比，RCG模型的功能主要是成为检索得到的（通常是业务策划的）信息的上下文解释器，而不是同时充当信息的存储库及对提示响应的信息解释器。这可能需要对预训练和微调方法进行修改，因为用于训练语言模型的当前目标可能不适合这种类型的学习。RCG需要模型具备不同的能力，如更长的上下文理解、数据的可解释性、数据的策划以及其他新的挑战。

在学术界或工业界，关于RCG系统的示例仍然相当少。在一个实例中，Kioxia公司的研究人员创建了开源的SimplyRetrieve，它采用了RCG架构，通过将上下文解释和知识记忆分离来提高LLMs的性能。在一个Wizard-Vicuna-13B模型上实施后，研究人员发现RCG准确地回答了有关组织工厂位置的查询。相反，RAG试图将检索到的知识库与Wizard-Vicuna对该组织的了解整合起来。这导致了部分错误的信息或幻觉。这只是一个例子——在其他情况下，RAG和基于检索的生成（ROG）可能提供正确的回应。

在某种程度上，从RAG（可检索式问答生成）转变为RCG（可检索式对话生成）可以比作编程中使用常量（RAG）和变量（RCG）的区别。当一个AI模型回答关于敞篷版福特野马的问题时，一个大型模型将熟悉许多与这辆车相关的细节，例如投产年份和引擎规格。大型模型也可以添加一些最近检索到的更新信息，但它主要基于特定的内部已知术语或常量来做出回应。然而，当一个模型被部署在一个电动车公司，为其下一款车的发布做准备时，该模型需要进行推理和复杂的解释，因为大多数数据将是未见过的。该模型需要理解如何使用信息类型，例如变量的值，来理解数据。

模式：在推理过程中概括和抽象作为一项能力

在商业环境中检索到的许多信息（商业组织和人员、产品和服务、内部流程和资产）在预训练期间可能未被相应的GenAI模型看到，而且在微调期间可能只是被抽样。这意味着变压器架构不会将“已知”的词语或术语（即模型先前摄入的）作为其生成输出的一部分。相反，该架构需要将未见的术语放置在适当的上下文解释中。这与上下文学习已经使LLMs（大型语言模型）能够在没有额外训练的情况下获得一些新的推理能力有些相似。

随着这种变化，进一步提高概括和抽象能力变得十分必要。需要增强的关键能力是在推理时通过提示使用学到的图式来解释和使用未见过的术语或令牌的能力。在认知科学中，“图式”描述了一种思维或行为模式，它组织了信息的类别及其之间的关系。心理图式可以被描述为一种精神结构，一个代表世界某个方面的框架。同样，在GenAI模型中，图式是正确解释未见过的令牌、术语和数据所需的一种基本抽象机制。如果模型今天不能展示出正在形成和解释图式的相当程度的掌握，它们就无法像目前那样优秀地执行复杂未见过的提示上下文数据的生成任务。当模型检索到以前未见过的信息时，它需要识别与数据最匹配的图式。这使得模型能够通过与图式相关的知识来解释未见过的数据，而不仅仅是上下文中包含的明确信息。值得注意的是，在这次讨论中，我指的是学习和抽象图式作为一种显现能力的神经网络模型，而不是依赖于在推理时在知识图谱中显示表示和参考的图式类解决方案。

从模型能力的三种类型（认知能力、功能技能和信息获取）的角度来看，抽象和图式使用明确地属于认知能力类别。特别是，如果小型模型磨练了在解释数据时构建和使用图式的技能，它们应该能够执行与大型模型相当的任务（考虑到检索到的适当数据）。可以期待的是，与图式相关的基于课程的预训练将增强模型的认知能力。这包括模型构建各种图式的能力、基于生成过程确定使用哪个图式的能力、以及将信息插入/利用图式结构以创造最佳结果的能力。

例如，研究人员展示了当前的LLMs如何使用“假设到理论”（HtT）框架学习基本图式。研究人员发现，一个LLM可以用来生成规则，然后遵循这些规则解决数值和关系推理问题。GPT-4发现的规则可以被视为理解家庭关系的详细图式。未来的家庭关系图式可能会更加简洁和强大。

应用于一个简单的商业案例，GenAI模型可以使用架构来理解公司供应链的结构。例如，知道“B 是 A 的供应商”和“C 是 B 的供应商”就隐含了“C 是 A 的二级供应商”对于分析潜在供应链风险的文件而言至关重要。

总结

随着GenAI在各行各业的企业中大规模部署，对高质量专有信息以及可追溯性和可验证性的依赖明显增加。这些关键要求以及对成本效率和专注应用的压力，正在推动对小型、针对性强的GenAI模型的需求，这些模型旨在解读主要未在预训练过程中看到的本地数据。以检索为中心的系统需要提升一些可以由深度学习GenAI模型掌握的认知能力，例如构建和识别适当的架构。通过使用RCG（检索构造指导）并指导预训练和微调过程以创建反映认知结构的概括和抽象，GenAI能够在理解架构和从检索中理解未见数据方面实现飞跃。精炼的抽象（如基于架构的推理）和高效的认知能力似乎是下一个前沿。

文章来源：https://medium.com/towards-data-science/knowledge-retrieval-takes-center-stage-183be733c6e8

标签：

生成式人工智能工具人工智能

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇构建高质量机器学习数据集的初学者指南

下一篇揭示LASSO的功效：回归分析中最小绝对收缩和选择算子的综合指南

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术