【论文精读】大语言模型融合知识图谱的问答系统研究-编程知识

💗💗💗欢迎来到我的博客，你将找到有关如何使用技术解决问题的文章，也会找到某个技术的学习路线。无论你是何种职业，我都希望我的博客对你有所帮助。最后不要忘记订阅我的博客以获取最新文章，也欢迎在文章下方留下你的评论和反馈。我期待着与你分享知识、互相学习和建立一个积极的社区。谢谢你的光临，让我们一起踏上这个知识之旅！

文章目录

📖论文介绍
📖摘要
📖1 相关工作
📖2 系统概述
📖3 系统构建方法
- 📖3.1 数据构造与预处理
- 📖3.2 信息过滤
- 📖3.3 专业回答
- 📖3.4 抽取转化
📖4 实验
- 📖4.1 不同模型回答效果展示
- 📖4.2 性能评估
- - 📖4.2.1 主观评估
  - 📖4.2.2 客观评估
  - 📖4.2.3 消融实验
- 📖4.3 大语言模型和知识图谱的相互转换
📖5 结束语

📖论文介绍

论文题目：大语言模型融合知识图谱的问答系统研究

作者信息：张鹤译1，王鑫 1+ ，韩立帆1，李钊 1 ，陈子睿1，陈哲 2
1.天津大学智能与计算学部，天津300354 2.天津中医药大学循证医学中心，天津301617

原文地址

代码:https://github.com/zhangheyi- 1/llmkgqas-tcm/

📖摘要

大语言模型（large language model，LLM），包括ChatGPT，在理解和响应人类指令方面表现突出，对自然语言问答影响深远。然而，由于缺少针对垂直领域的训练，LLM在垂直领域的表现并不理想。此外，由于对硬件的高要求，训练和部署LLM仍然具有一定困难。为了应对这些挑战，以中医药方剂领域的应用为例，收集领域相关数据并对数据进行预处理，基于LLM和知识图谱设计了一套垂直领域的问答系统。该系统具备以下能力：（1）信息过滤，过滤出垂直领域相关的问题，并输入LLM进行回答；（2）专业问答，基于LLM和自建知识库来生成更具备专业知识的回答，相比专业数据的微调方法，该技术无需重新训练即可部署垂直领域大模型；（3）抽取转化，通过强化LLM的信息抽取能力，利用生成的自然语言回答，从中抽取出结构化知识，并和专业知识图谱匹配以进行专业验证，同时可以将结构化知识转化成易读的自然语言，实现了大模型与知识图谱的深度结合。最后展示了该系统的效果，并通过专家主观评估与选择题客观评估两个实验，从主客观两个角度验证了系统的性能。

关键词：大语言模型（LLM）；知识图谱；问答系统；垂直领域；中医药方剂

问答系统（question answering，QA）能够自动回答用户提出的自然语言问题，是信息检索和自然语言处理的交叉研究方向。将知识图谱（knowledge graph，KG）与问答系统融合，正确理解用户语义是一大挑战[1]。虽然知识图谱问答能够通过对问题进行分析理解，最终获取答案，但面对自然语言的灵活性与模糊性，如何处理复杂问题的语义信息，如何提高复杂推理问答的高效性仍是研究难点[2]。
…
面对专业领域的问题，大语言模型的生成结果可能缺乏真实性和准确性，甚至会产生“幻觉事实”。为了增强大语言模型应对专业领域问题的能力，很多工作采取数据微调的方式修改模型参数，从而让大模型具有更高的专业能力。然而一些文献指出这些数据微调的方法会产生灾难性遗忘（catas trophic forgetting）[10]，致使模型原始对话能力丧失，甚至在处理非微调数据时会出现混乱的结果。为了应对这些问题，本文结合大语言模型与知识图谱，设计了一种应用于专业领域的问答系统。该问答系统通过将知识库（knowledge base，KB）中的文本知识、知识图谱的结构化知识、大语言模型中的参数化知识三者融合，生成专业问答结果，因此无需使用数据微调的方式修改模型参数，就能够理解用户语义并回答专业领域的问题。同时，通过采用类似于 ChatGLM-6B这样对硬件资源要求较低的模型，以降低硬件对系统的约束。
另外，随着大语言模型技术的发展，认知智能范式的转变将是接下来的研究重点，如何将大语言模型与知识图谱进行有效结合是一个值得研究的课题。因此，本文参照研究问答系统的形式，进一步研究“大语言模型+知识图谱”的智能信息系统新范式，探索知识图谱与大语言模型的深度结合，利用专业性知识图谱来增强LLM的生成结果，并利用LLM理解语义抽取实体对知识图谱进行检索与增强

本文的主要贡献有两点：

提出大语言模型+专业知识库的基于提示学习（prompt learning）的问答系统范式，以解决专业领域问答系统数据+微调范式带来的灾难性遗忘问题。在提升大模型专业能力的同时，保留其回答通用问题的能力。在硬件资源不足的情况下，选择较小的大模型部署专业领域的问答系统，实现能和较大的大模型在专业领域相媲美甚至更好的效果。
探索了大语言模型和知识图谱两种知识范式的深度结合。实现了将大语言模型和知识图谱的双向链接，可以将易读的自然语言转换为结构化的数据，进而和知识图谱中的结构化数据匹配，以增强回答专业性；可以将KG中的结构化知识转换为更易读的自然语言知识来方便人们理解

📖1 相关工作

随着以ChatGPT为代表的大语言模型表现出令人震惊的能力，国内诸多厂商纷纷投入构建中文大语言模型，并涌现出了一系列的模型，如百度的文心一言、阿里的通义千问、华为的盘古大模型等。这些模型虽然具有一定的问答能力，但是正如上文所言，它们在专业领域都有着巨大的局限性。GLM（gene ral language model）[11]是清华提出的预训练语言模型，它的底层架构是通用语言模型，在超过4 000亿个文本标识符上进行预训练。本文系统的应用示例同样是基于GLM。
在垂直领域存在很多的工作，它们主要采用的方法仍然是数据+微调的范式，即使用不同的专业数据对预训练语言模型进行微调，如P-tuning[12]、P tuning v2[13]等，以获取语言模型在相应领域的专业能力。通过更新少量参数，减少了对硬件资源的要求。虽然减弱了微调产生的灾难性遗忘问题，但是此问题仍然存在。
…
从以上工作可以总结出，垂直领域的范式还是通过不同来源的数据+不同的模型基座进行微调，仍然无法避免微调的固有缺陷，而本文使用的专业知识库+大语言模型的新范式能够解决这一问题。

LangChain（https://www.langchain.com/）是一个强大的框架，旨在帮助开发人员使用语言模型构建端到端的应用程序，可以为LLM的开发利用提供有力支撑。它提供了一套工具、组件和接口，可以简化创建由LLM或聊天模型提供支持的应用程序的过程。LangChain可以轻松管理与大语言模型的交互，将多个组件链接在一起，并集成额外的资源。利用 LangChain，本文设计的问答系统可以轻松建立知识库与大语言模型间的链接，将知识注入到大语言模型当中

📖2 系统概述

本文提出的专业问答系统基于大语言模型与知识图谱，旨在探索大语言模型+专业知识库的问答系统范式，探索大语言模型与知识图谱的深度结合，以实现专业的垂直领域问答效果，并为用户提供专业问答服务和友好交互服务。
基于以上目标系统实现了以下功能：信息过滤、专业问答、抽取转化。
为了实现这些功能，系统基于专业知识与大语言模型，利用LangChain将两者结合，设计并实现了大语言模型与知识图谱的深度结合新模式。

信息过滤模块旨在减少大语言模型生成虚假信息的可能性，以提高回答的准确性。专业问答模块通过将专业知识库与大语言模型结合，提供专业性的回答。这种方法避免了重新训练大语言模型所需的高硬件要求和可能导致的灾难性遗忘后果。

抽取转化是指从自然语言文本抽取出知识图谱结构化数据，将知识图谱结构化数据转化为自然语言文本，是为了进一步探索问答系统新范式而设计的。一方面基于大语言模型提取出专业知识，将知识图谱结构化数据转化为自然语言文本，易于用户理解；另一方面利用知识抽取出三元组和知识图谱对比验证，可以增强大语言模型回答的专业性，同时抽取出的三元组在经专家验证后可以插入知识图谱中以增强知识图谱。除此之外，本系统还实现了用户友好的交互服务。

如图1所示，系统交互流程如下：（1）用户向系统提出问题，问题通过信息过滤后，与知识库中的相关专业知识组成提示，输入到专业问答模块中得到答案；（2）信息抽取模块从回答中提取出三元组，与知识图谱进行匹配，获取相关节点数据；（3）这些节点数据经用户选择后，同样以提示的形式输入专业问答模块得到知识图谱增强的回答。这种双向交互实现了大语言模型和知识图谱的深度结合。
在这里插入图片描述

总而言之，本文提出的专业问答系统通过大语言模型与知识图谱深度结合，实现了专业的垂直领域问答效果，并且提供用户友好的交互服务。系统的信息过滤模块减少了虚假信息生成的可能性，专业问答模块提供了专业性的回答，抽取转化模块进一步增强了回答的专业性，并可以对结构化数据进行解释，降低用户理解难度，同时可用专家确认无误的知识进一步增强知识图谱。这种新的问答系统范式为用户提供了更准确、更专业的答案，同时保持了用户友好的交互体验。

📖3 系统构建方法

本文从数据构造与预处理、信息过滤、专业问答、抽取转化四方面，以中医药方剂领域的应用为例，介绍如何构建系统。

本文针对专业领域，收集相关领域数据进行预处理，设计流程来训练一套易于部署的专业领域问答系统，并探索大语言模型与知识图谱的融合。

图2以中医药方剂专业领域为例展示了该系统的问答流程。首先，对输入的中医药方剂相关问题文本进行信息过滤，即文本分类，判断出该文本是否与中医药方剂相关。其次，通过LangChain在知识库中检索与文本相关的知识，以提示的方式和问题一起输入大模型，如：ChatGPT、ChatGLM等，大模型通过推理生成具备专业知识的答案。然后，对该回答进行知识抽取，从回答中抽取出三元组。将抽取出的三元组和已有的方剂知识图谱进行匹配，以验证回答的专业性，同时将知识图谱中的节点以问题的形式输入大模型，获取易读的自然语言解释，从而实现了大模型和知识图谱的双向转换
在这里插入图片描述

📖3.1 数据构造与预处理

本系统的实现需要收集整理专业数据集，以支持系统的实现。本文基于多种数据构造系统所需的数据集、知识库，并对这些数据进行数据预处理。
（1）基于已有的专业领域数据集。本文直接搜集专业领域已有的相关数据集，参考其构成，从中整理筛选出所需的数据。对于中医药方剂领域，参考 MedDialog[19]、CBLUE[20]、COMETA[21]、CMeKG数据集，整理并构建相关专业数据。相关介绍如表1所示
在这里插入图片描述

（2）权威数据。权威数据从专业书籍或权威网站收集。这部分数据来自于相关领域的专业书籍和权威网站，用于构建知识库，为大模型的回答提供专业知识支撑。对于中医药方剂领域，主要基于方剂学等专业书籍构建了中医药方剂专业知识库，同时从NMPA（国家药品监督管理局）、药融云-中医药数据库群、TCMID中医药数据库、中医药证候关联数据库等专业权威网站收集中医药方剂领域的相关数据知识。

（3）问题数据。问题数据用来训练信息过滤模型。由于某些专业领域存在问题数据缺失的情况，本文设计了一种基于提示的方法，使用大模型生成问题数据（图3所示）。首先从相关数据中选择一条数据用来生成提示，将提示输入大模型生成一条数据，重复以上述步骤，直到相关数据被选完。
在这里插入图片描述

（4）激活知识抽取能力的微调数据。如图3所示，使用基于提示的方法，通过让LLM回答问题，生成合适的微调数据。提示如表2中P2所示，结合信息抽取示例，将P2输入LLM生成25条微调数据，利用这些数据微调大模型以激活大模型的信息抽取能力。

系统使用（1）、（2）中的数据构建知识库，知识库支持多种形式的数据，包括txt、html、pdf等格式。使用（3）中的数据训练信息过滤模型。使用（4）中的数据训练知识抽取模型。

📖3.2 信息过滤

针对专业领域的问答，大语言模型无需回答其他领域的问题，为此本系统添加了基于BERT（bidi rectional encoder representations from transformers）[24] 的文本过滤器对问题进行过滤，以限制大模型可以回答的问题范围。
…
因此需要单独设计文本过滤器以对信息进行过滤。
假设可输入大模型的所有的问题集合为Q，大模型在某一专业领域可以回答的问题集合为R，可以生成专业回答的问题集合为D，显然有Q>R>D。使用微调方式限制将使得R→D，会让模型回答能力减弱1）。而使用过滤器的形式，使得Q→R，将尽
可能保证询问的问题在R的范围之内，虽然会有部分 R之外的数据进入大模型，但是由于本文设计的专业增强问答系统仍然保留一定的通用能力，对R之外的问题也可以进行无专业验证的回答。
信息过滤将保证本系统尽可能回答在系统能力范围以内的问题，以减少产生幻觉事实的可能
在这里插入图片描述

在这里插入图片描述

📖3.3 专业回答

为了使得大模型知识图谱问答系统的回答更具备专业性，本文通过提示的方式注入知识库中专业知识，增强回答的专业性。通过检索知识库，大模型可以回答其本身能力之外的专业问题，使得大语言模型支持的问题边界扩大。这种方式和引入专业数据的微调方法对比，无需重新训练就可以部署一个专业领域大语言模型
在这里插入图片描述
…

📖3.4 抽取转化

本节探索大语言模型和知识图谱的深度结合。大模型的回答是易读的自然语言数据，而知识图谱的数据是结构化的知识。为了将两者交互结合，需要实现两者的相互转换：（1）实现对自然语言的结构化；（2）可将结构化的知识转换为自然语言。前者是信息抽取的任务，后者可以通过提示的方式输入大模型转换成自然语言文本。

以中医药方剂领域的应用为例进行分析：

（1）对于信息抽取，使用P-tuning v2微调的方式强化LLM的信息抽取能力。具体来说，在语言模型的每一层上将l个可训练的注意力键和值嵌入连接到前缀上，给定原始的键向量K∈Rl×d和值向量 V∈Rl×d，可训练的向量Pk、Pv将分别与K和V连
接。注意力机制头的计算就变为
在这里插入图片描述
其中，上标(i)代表向量中与第i个注意力头对应的部分，本文通过这种方法来微调大语言模型，第3.1节描述了如何构建微调数据。如图1所示，将大模型生成的自然语言答案文本，输入经过信息抽取增强微调后的大模型中，提取出结构化的三元组信息，并与知识图谱进行匹配，在专家验证后，可以存储到方剂知识图谱中。

（2）对于结构数据的易读化，使用提示的方式（提示构造如表2的P3所示），将知识图谱相关节点转换为P3后，再将P3输入大模型得到自然语言的回答。
本文尝试将专业知识图谱与大语言模型结合，利用大模型生成自然语言回答，抽取出专业的结构化知识，并和已有的专业方剂知识图谱进行知识匹配，以进行专业验证。同时可以将知识图谱中的结构化知识转化成易读的自然语言

📖4 实验

在这里插入图片描述

📖4.1 不同模型回答效果展示

在这里插入图片描述

📖4.2 性能评估

为了评估系统的性能，本节从主观评估与客观评估两方面验证了在中医药方剂学领域的专业效果，并通过消融实验验证了各个模块都具备相应的提升系统性能的能力

📖4.2.1 主观评估

本实验请三个中医药方面的专家对不同模型的回答进行评估，用以验证系统效果。将100个问题分别输入三个不同的模型生成答案，然后把来自不同模型的每个问题的结果，交给专家进行评估，比较对于同一个问题，专家更喜欢哪一个模型的回答。如图 6所示，横坐标表示不同的专家，纵坐标表示最满意问题所占问题总数的比例。模型1是本文所提专业问答系统，模型2表示ChatGLM，模型3表示ChatGPT。由于是对比三个模型的结果，因此只需专家最满意比例大于总体1/3就可以证明专业问答系统的回答更好。专家们对模型1的回答结果最满意总个数分别是37、42、42，都超过总问题个数的1/3，因此本文设计的系统更受专家喜欢
实验过程中，问题被分为两类，一种是普通问题，另一种是专业问题，两者分别有50个问题，共100 个问题。普通问题是相对常见的问题，对专业知识需求较低；专业问题是考验式问题，类似于考试题，回答专业问题需要具备更多的知识。专家总体评估如图6（a），简单问题评估如图6（b），专业问题评估如图6（c）。

在图**6（a）中，模型1取得了最高的满意率，可以看出本系统提出的方法更受中医药专家的喜欢。对于简单问题，如图6（b）所示，远远优于其他两个模型，对于专业问题，如图6（c）**所示，虽然ChatGPT取得最优的结果，但是模型1相对于模型2仍更受专家喜欢。相对于其他模型，模型1的回复更加详细，会补充更多专业知识。但是当问题难度上升，回答问题需求知识更多，当知识库中没有这部分知识时，模型1的回答专业性就不如ChatGPT。这可能是因为 ChatGPT训练时所用的语料中涉及专业问题，所以 ChatGPT在回答专业问题时更具备优势。

结果表明，总体上本文所提系统更受专家喜欢。虽然面对复杂问题时，表现不如ChatGPT，但是相对基线模型ChatGLM-6B仍保持更高的满意率，表明了本文所提系统的有效性。

在这里插入图片描述

📖4.2.2 客观评估

为了客观验证系统的问答性能，让系统回答专业相关的选择题，可以客观验证系统性能。此实验收集并整理了50条方剂学不同难度的选择题，让不同模型进行回答，计算不同模型对不同问题的得分情况，以评估系统的客观性能。
实验过程中，问题按照问题的难度分为三类，分别为简单题（simple question，SQ）、中等题（medium question，MQ）、困难题（difficult question，DQ）。准确率以正确问题个数除以总问题个数进行计算。
在表4中，小括号中的数字表示正确回答问题的个数。从其中结果看，显然随着问题难度提升，回答的正确率依次下降。对于平均正确率而言，专业问答系统显著高于ChatGLM-6，略低于ChatGPT。说明专业问答系统能够显著提升大模型的专业能力，甚至能够达到和ChatGPT相媲美的结果。
在这里插入图片描述

结果表明，和ChatGLM-6B相比专业问答系统答对题目的数量更多，从客观上验证了系统的性能

📖4.2.3 消融实验

本文进行消融实验，进一步验证信息过滤、专业问答、知识抽取与知识图谱相互转换三个模块的功能对于信息过滤模块而言，其作用并非是增强回答专业性，而是对问题进行过滤，减少生成幻觉事实的可能性，因此为了验证其能力，需要使用问题数据集单独进行测试；对于专业问答模块，其本质是利用知识库增强回答专业性，因此对该模块需要测试性能；对于知识抽取与知识图谱相互转换模块，可以通过去除和知识图谱交互重新生成答案部分，以验证增强回答专业性，同样需要测试性能。因此在消融实验中，对信息过滤模块单独使用问题数据集验证其信息过滤能力，对后两者使用客观性能评估的数据集验证性能提升。
实验过程中，为了验证信息过滤模块的能力，将输入的问题按照相关程度划分为三种类型的问题，分别为无关问题（completely unrelated question，CUQ）、部分相关问题（some related question，SRQ）、完全相关问题（completely related question，CRQ）。对于部分相关问题，是在无关问题的基础上增加相关的信息或在相关问题的基础上增加无关信息，作为干扰。通过将无关信息和相关信息混合的方式制造部分相关问题，可以验证信息过滤的鲁棒性。准确率使用正确过滤问题个数除以问题总个数进行计算。
在表5中，RIF（remove information filter）表示去除信息过滤，RKB（remove knowledge base）表示去除知识库，RKG（remove knowledge graph）表示去除知识图谱交互。去除信息过滤模块后，专业问答系统可以通过合适的提示机制进行信息过滤，从结果看，专业问答-RIF的过滤准确率低于专业问答系统的过滤准确率，说明了去除信息过滤模块后系统的信息过滤能力有所降低，验证了信息过滤模块的有效性。对于简单问题的回答，专业问答-RKB的准确与ChatGLM-6B基本相同，专业问答-RKG的准确率与专业问答系统基本相同，说明对于SQ，大模型本身具备一定的回答能力，其增幅主要依靠知识库，知识图谱进行交互增强不明显。对于困难问题，专业问答-RKB和专业问答-RKG的准确率低于专业问答系统，高于ChatGLM-6B，可见对于MQ、DQ，通过知识图谱进行交互发挥一定的作用，猜测这可能是因为知识图谱能够注入相关知识或辅助大模型进行推理，激活大模型的边缘知识。总体来说RKB、RKG都会使得专业问答系统的回答准确率下降，并且高于 ChatGLM-6B的准确率，由此验证了系统各个模块均发挥作用。
对于简单问题知识图谱作用不明显，这是由于回答问题相对简单时，所需要知识是孤立的，无需通过深度推理得出，当不存在相应知识时，就无法通过知识图谱辅助推理得到正确的答案，因此知识图谱交互对回答的增强不明显。

在这里插入图片描述

📖4.3 大语言模型和知识图谱的相互转换

本实验通过展示系统的用户界面截图，体现了系统用户交互服务，同时还体现了本文所设计的系统具备的大语言模型与知识图谱之间的交互能力。

本文实现了知识图谱与大模型的双向链接，探索了大语言模型和知识图谱的深度结合。用户向系统提出问题，系统进行回答，并通过图的方式，展示知识图谱相关数据节点，用户可以选择其中相关节点，再次输入大模型得到更多的解释。

图7来自系统界面截图，展示了系统问答、图谱数据易读化、自然语言回答结构化的效果。左上角的问答截图是用户向系统发出提问，系统生成答案，然后对答案进行结构化，生成三元组，并和已有的知识图谱进行匹配后，展示出右上角的知识图谱节点。如图7右下角所示，用户可以选择相关节点，系统将其转化为问题再次生成答案，最终两个答案相结合就是系统的回复。这样既为用户提供了良好的交互服务，也实现了大语言模型与知识图谱的双向交互。

在中医药方剂领域，系统生成的回复有一定的参考价值，但是由于中医药方剂领域本身的一些特性，系统还具有很多可以改进的地方，比如加入中医如何开方的数据和相关问诊的多模态数据，如患者的舌苔、脉象、气色等。该系统针对不同的领域，需有相应的调整。
在这里插入图片描述

📖5 结束语

在大模型时代，激活大模型中的“涌现”能力并将其适配到具体领域场景是未来在垂直领域建立竞争力的关键，其中高质量领域数据与知识不可或缺。垂直领域的数据与知识可以有两种利用方式：

（1）在LLM预训练过程中，注入垂直领域知识并进行相应架构与工程的优化，或者使用微调方法修改模型参数向其中注入专业知识；
（2）结合垂直领域数据与知识图谱，设计合适的提示机制，充分激发基座大模型的能力，实现垂直领域任务能力的“跃迁”。本文从第二种方式开始，研究大语言模型+专业知识库的问答系统范式，探索将专业知识图谱与大语言模型深度结合，实现了大语言模型与知识图谱的双向交互，同时实现了文本知识库、知识图谱、大语言模型三种知识的融合。

大模型知识图谱问答系统是对大模型与知识图谱结合的探索工程，仍然存在着很多值得完善的部分。在该系统中目前仅实现了在中医药方剂领域的应用，其设计思路还可以应用在不同的领域，如法律、金融、教育等垂直领域。除此之外，在系统效果的验证方面还缺少一项标准的评估系统专业能力的基准，因此在后续工作中，将开发一个专门用于评估垂直领域问答系统性能的基准。