简介
知识图谱(KG)是一种以图谱格式表示数据的网络。知识图谱的魅力在于将概念、事件和实体表示为节点,将它们之间的关系表示为边。这些关系决定了节点的上下文,因此可以更好地理解一个词的语义,并区分其多种可能的含义。例如,谷歌的知识图谱支持谷歌搜索,可以区分品牌 "苹果 "和水果 "苹果"。知识图谱适用于一系列领域和应用,包括零售业的产品推荐、搜索引擎优化、反洗钱措施和医疗保健。
然而,KG的构建过程困难重重、成本高昂且耗时较长,这阻碍了 KG 的使用。这一挑战激发了新一轮探索 KG 自动构建的研究热潮。特别是,由于像 GPT-4 这样的大型语言模型(LLM)具有卓越的语言处理能力,人们对将其整合到构建过程中的兴趣日益浓厚。在本文中,我们将首先简要探讨与构建 KG 相关的困难。然后,我们将比较作为知识库的 KG 和 LLM。最后,我们将回顾利用 LLM 自动构建 KG 的现有方法。
构建知识图谱的困难
以往的知识图谱构建方法基于众包或文本挖掘。流行的基于众包的知识图谱(如 WordNet 和 ConceptNet)的构建耗费了大量人力,但仅限于预定义的关系集。同时,基于文本挖掘的方法从文档中提取知识,但仅限于提取文本中明确表述的关系。这种方法还涉及许多步骤,如核心参照解析、命名实体识别等。
由于每个领域或应用都要构建不同的 KG,因此困难就更大了。鉴于每个领域使用的概念和术语各不相同,因此没有通用的方法来创建 KG。特定领域也有自己的挑战。例如,KG 在服务计算领域非常有用,因为它们有助于资源管理、个性化推荐和客户理解。然而,在这种情况下,KG 需要来自不同领域的知识和概念,而且构建 KG 所需的数据高度分散,基本上没有标注。这些因素大大增加了制作知识图谱所需的时间、精力和成本。
知识图谱与大型语言模型
知识图谱和大型语言模型都可以通过查询来获取知识。在下图中,知识图谱通过查找相关的连接节点来找到答案,而 LLM 则需要填写 [MASK] 标记来完成句子。最近,GPT-4 和 BERT 等 LLM 因其令人印象深刻的语言理解能力而备受关注。众所周知,LLM 的规模每年都在不断扩大,而且它们是在大量数据的基础上训练出来的,因此拥有丰富的知识。许多人可能会在 ChatGPT 上提问,而不是在谷歌上搜索。自然,研究界的下一个问题就是探索 LLM(如 GPT)能否取代 KG(如谷歌知识图谱)成为主要的知识来源。
进一步的研究表明,尽管拥有更多的基本世界知识,但当地语言学习者在回忆关系事实和推断行动与事件之间的关系时却很吃力。尽管常识分子拥有众多优势,但他们也面临以下挑战:
KG 不会遇到这些相同的问题,并表现出更好的一致性、推理能力和可解释性,不过它们也有自己的局限性。除了前面讨论过的那些限制外,知识图谱还缺乏 LLM在无监督训练过程中享有的灵活性。
合并知识图谱和大型语言模型
因此,人们一直在努力研究如何将 LLM 和 KG 融合在一起。知识图谱有能力引导 LLM 达到更高的准确度,而 LLM 则可以在构建过程中帮助知识图谱提取知识,提高知识图谱的质量。将这两个概念融合在一起有几种方法:
利用大型语言模型自动构建知识图谱
早期方法
2019 年提出的早期方法之一是 COMET(或 COMmonsEnse Transformers),它使用微调生成式 LLM(本例中为 GPT),通过给定头部实体和关系生成尾部实体来构建知识图谱。给定下图中的 "种子 "和 "关系 "后,COMET 生成 "完成 "响应,并由人类对其进行评估,以确定响应的可信度。然后,这些 "种子-关系-完成 "三元组就可以用来形成 KG。例如,"piece "和 "machine "可以组成由 "PartOf "关系连接的两个节点。
使用 ChatGPT 作为信息提取器
为了避免人工标注数据所带来的工作量和成本,我们使用 ChatGPT 开发了一个专门针对服务领域的 KG(名为 BEAR)。为此,我们创建了一个针对该领域的本体,作为KG的基础,并确定了稍后应填充到KG中的概念和特征。然后,会提示 ChatGPT 从非结构化文本数据中提取相关内容和关系,如下图所示。随后,自动提取的信息将被纳入 KG 以构建 KG。
使用 LLM 半自动构建 KG
最近,Kommineni 等人再次使用 ChatGPT 作为信息提取器,提议在他们的 KG 构建方法中使用 ChatGPT-3.5,由人类领域专家分两个阶段验证结果,如下图所示。这种方法与前一种方法的不同之处在于,LLM 在其中发挥了更积极的作用。从特定的数据集开始,ChatGPT 被提示生成能力问题(CQ),即有关数据的抽象问题。同样是通过提示 ChatGPT,从 CQ中提取概念和关系,创建本体。从数据中获取 CQ 的答案并将其提供给 ChatGPT,然后指示 ChatGPT 提取关键实体、关系和概念,并将其映射到本体中以构建 KG。
从LLM中收货KG
本文讨论的最后一种方法是直接从当地语言学习者本身提取信息。认识到,在法律硕士的初始培训中,他们储存了大量可以利用的知识。下图显示了获取法律硕士知识的步骤。这一过程从一个初始提示和两个实体对示例开始。使用文本转述模型对提示进行转述,并从原始提示推导出修改后的提示。随后,在 LLM 中搜索与这组提示相对应的实体对。通过搜索和重新评分的方法,提取出最相关的实体对组成 KG,实体对中的实体作为节点,提示作为关系。
这种方法使生成的 KG 具有更好的关系质量,因为衍生关系具有传统构建的 KG 所没有的一些特征:
有趣的是,使用 LLM 生成 KG 还提供了一种新的方法,可以将 LLM 中捕获的知识可视化和量化。
结论
综上所述,我们讨论了知识图谱和大型语言模型作为知识库的潜力。知识图谱擅长捕捉各种关系,具有更强的推理能力,但构建难度大、成本高。另一方面,大型语言模型包含大量知识,但容易出现偏差、幻觉和其他问题。此外,针对特定领域进行微调或调整的计算成本也很高。为了利用这两种方法的优势,可以通过多种方式将知识图谱和大型语言模型整合在一起。
在本文中,我们重点讨论了如何使用大型语言模型来协助自动构建知识图谱。我们特别回顾了四个例子,包括早期的 COMET 模型、在 BEAR 中使用 ChatGPT 作为信息提取器,以及直接从大型语言模型中获取知识。这些方法代表了将知识图谱和大型语言模型的优势结合起来以增强知识表征的一条充满希望的前进道路。