【论文阅读】《Graph Neural Prompting with Large Language Models》

文章目录

  • 0、基本信息
  • 1、研究动机
  • 2、创新点
  • 3、准备
    • 3.1、知识图谱
    • 3.2、多项选择问答
    • 3.3、提示词工程(prompt engineering)
  • 4、具体实现
    • 4.1、提示LLMs用于问答
    • 4.2、子图检索
    • 4.3、Graph Neural Prompting
      • 4.3.1、GNN Encoder
      • 4.3.2、Cross-modality Pooling
      • 4.3.3、Domain Projector
      • 4.3.4、Self-supervised Link Prediction
    • 4.4、模型整体框架图

0、基本信息

  • 会议:2024-AAAI
  • 作者:Yijun Tian, Huan Song, Zichen Wang
  • 文章链接:Graph Neural Prompting with Large Language Models
  • 代码链接:Graph Neural Prompting with Large Language Models

1、研究动机

 尽管大语言模型在各种各样的自然语言任务上取得了令人瞩目的成就,但是,当你在使用ChatGPT或者其他LLMs时有没有发现这样的一个问题,就是LLM的回答很宽泛,每个问题的回答不够精确,不够具体,这说明,LLMs仅仅是理解了语言的结构形式,,但没有理解语义信息。

 另一方面,知识图谱(KGs)中包含大量的语义信息,作为一种系统化的知识表达方式,但是目前的方法都是利用KGs联合训练来增强语言模型或是定制化的模型结构,这样的方法导致了大量的参数,需要额外的计算资源。如果采用直接的方法,将KGs用于检索增强生成,将KG三元组直接输入到LLMs,但是这样会引入噪声。

 那么,到底能不能从知识图谱中学习到拥有的知识并整合到与训练的LLM中呢?为此,本文提出了图神经提示(Graph Neural Prompt),解决上述问题,帮助预训练的LLMs从知识图谱中学习有用的知识。

主要解决的问题:

  • LLMs不能准确得到相应的知识,容易产生毫无根据的回答;
  • 训练阶段需要大量的计算资源;
  • 解决如何处理知识图谱为LLMs提供有益的信息,同时避免噪声干扰;

2、创新点

  • 一个即插即用的方法,帮助预训练LLMs从知识图谱中学习有用知识,据作者而言,这是首次研究。
  • 提出Graph Neural Prompting(GNP)方法,包含四个模块,GNN Encoder,Cross-modality Pooling,Domain Projector和Self-supervised Link Prediction

这篇文章其实也是A+B的过程,常见的图提示是基于文本的,本篇提示,则是使用GNNs对KGs进行嵌入作为提示,来微调语言模型。属于知识图谱增强语言模型的范畴。

3、准备

3.1、知识图谱

 知识图谱就是把不同种类的信息连接在一起而形成的一个关系网络,知识图谱由结点和边组成,每个结点表示现实世界中存在的“实体”,每条边表示实体与实体之间的“关系”。比如百度知识图谱,社交网络。

 一个知识图谱定义为 G = ( E , R , T ) \mathcal{G}=(\mathcal{E},\mathcal{R},\mathcal{T}) G=(E,R,T) E \mathcal{E} E表示实体集合, R \mathcal{R} R表示关系集合, T \mathcal{T} T表示事实三元组 { ( e h , r , e t ) } ∈ E × R × T \{(e_h,r,e_t)\}\in \mathcal{E} \times \mathcal{R}\times \mathcal{T} {(eh,r,et)}E×R×T e h e_h eh定义为头实体, r r r定义为关系, e t e_t et定义为尾实体。

3.2、多项选择问答

 对于一个问题 Q Q Q,选项集合定义为 A = { a k } k = 1 K A=\{a_k\}^K_{k=1} A={ak}k=1K K K K是回答选项的总个数, a k a_k ak定义为第 k k k个回答选项。可选的上下文 C C C取决于开卷闭卷。任务是设计一个机器学习模型 F θ \mathcal{F}_{\theta} Fθ θ \theta θ是参数)选择最好的选项去回答问题。真实标签 y ∈ A y\in A yA是问题 Q Q Q的正确答案。本文,希望使用知识图谱 G \mathcal{G} G来提供丰富的知识,并协助模型回答问题。

3.3、提示词工程(prompt engineering)

 提示工程是一个较新的学科,应用于开发和优化提示词(Prompt),帮助用户有效地将语言模型用于各种应用场景和研究领域。掌握了提示工程相关技能将有助于用户更好地了解大型语言模型的能力和局限性。研究人员可利用提示工程来提高大语言模型处理复杂任务场景的能力,如问答和算术推理能力。开发人员可通过提示工程设计和研发出强大的技术,实现和大语言模型或其他生态工具的高效接轨。

 简单理解,Prompt指的是用户给大型语言模型发出的指令,它可以是一个问题、一段文字描述,甚至可以是带有一堆参数的文字描述。LLM会基于 prompt 所提供的信息,生成对应的文本,亦或者图片。

来自:https://zhuanlan.zhihu.com/p/631967998

4、具体实现

4.1、提示LLMs用于问答

 一个常见的简单方法为,给定一个问题 Q Q Q,可选择的文本 C C C,答案选项 A A A,首先将 C , Q , A C,Q,A C,Q,A拼接并标记为输入文本序列X,然后设计一系列的提示文本tokens, P P P,并将其放在输入文本序列X的前面,之后,作为LLM模型的输入医生称预测 y ′ = f ( [ P , X ] ) y' = f([P,X]) y=f([P,X])。LLM模型可以使用teacher forcing和交叉熵损失来训练以适应下游任务:
L l l m = − l o g p ( y ∣ X , θ ) \mathcal{L}_{llm}=-log\;p(y|X,\theta) Lllm=logp(yX,θ)
其中, p p p是模型参数化的概率分布。

 提示P,要么是来自文本输入形式的硬提示,要么是可学习嵌入向量的软提示。

 本文使用的方法为软提示,将知识图谱中的结构和真实信息编码到软提示 P P P中,软提示 P P P嵌入到的可训练的向量序列X中。可学习的 P P P提供丰富的结构信息和知识以及为每个数据实例提供任务指令。

teacher-forcing 在训练网络过程中,每次不使用上一个state的输出作为下一个state的输入,而是直接使用训练数据的标准答案(ground truth)的对应上一项作为下一个state的输入。

prompt模板的制作分为手工创建模板和自动化生成模板,而自动化生成模板又分为离散提示(又叫做硬提示)和连续提示(又叫做软提示)。离散prompt中,prompt是一个实际的文本字符串;连续prompt中,prompt直接在底层语言模型的嵌入空间中进行描述.

4.2、子图检索

 首先,为什么需要子图检索呢?我们要明确,知识图谱包含数百万个结点以及更多的关系,然而并不是每个结点对于我们的任务有帮助,因此我们需要检索出与我们任务相关的结点以及他的子图(因为子图包含丰富的语义信息)。所以我们需要在检索子图,这子图中包含于 X X X中的标记相关额实体。

 对于每个答案选项 a k a_k ak以及它对应的上下文 C C C和问题 Q Q Q,首先通过KGs中实体之间的链接获得一组匹配的实体集合 E m a t c h \mathcal{E}_{match} Ematch,将 X X X中标记的实体与知识图谱 G \mathcal{G} G中的实体匹配。然后,基于集合 E m a t c h \mathcal{E}_{match} Ematch检索子图,包括他们的两跳邻居以及他们之间的关系。检索到的子图包含必要的内容知识帮助模型回答问题 Q Q Q

4.3、Graph Neural Prompting

在第2节介绍了Graph Neural Prompting(GNP)主要包含了四个部分:

  • GNN encoder:将知识图谱(KGs)作嵌入;
  • Cross-modality pooling module:确定合适的结点嵌入;
  • Domain projector:建立起图与文本之间的桥梁;
  • Self-supervised link prediction objective:使模型能够识别结构信息;
    下面对上述四个模块分别介绍。

4.3.1、GNN Encoder

 为什么要用GNN Encoder呢?
 尽管检索的子图 G ′ \mathcal{G}' G包含了关于问题和答案选择的丰富上下文信息,但是一些实体和关系对于最终的答案并不相关。如果将子图 G ′ \mathcal{G}' G中的每个三元组直接输入,这样不可避免地引入了噪声,对LLM的预测产生影响。
为此,使用GNN去编码最相关的知识并进一步整合(聚合)实体中复杂的关系。首先,使用与训练的实体嵌入来初始化结点嵌入(这里我也不是很懂)。然后,使用GAT作为对检索子图 G ′ \mathcal{G}' G的编码器,编码过程如下:
H 1 = f G N N ( G ′ ) H_1 = f_{GNN}(\mathcal{G}') H1=fGNN(G)
其中, H 1 ∈ R d g H_1\in\mathbb{R}_{d_g} H1Rdg表示子图 G ′ \mathcal{G}' G中每个结点通过GNN学习到的结点嵌入向量, d g d_g dg表示GNN编码器输出的维度。

4.3.2、Cross-modality Pooling

 为什么要设计Cross-modality Pooling这个模块呢?
 如果不使用,之前的设计有什么问题?

 文中讲的是,为了识别与问题最相关的结点,并将结点嵌入合并为一个整体的图集表示以便后续使用。

NOTE:如何实现?
1、识别结点的重要性
引入一个自注意层,利用内部图的特征和节点间的隐式交互来动态识别节点的重要性。
H 2 = Self-Attn ( H 1 ) H_2=\text{Self-Attn}(H_1) H2=Self-Attn(H1)
其中, H 2 H_2 H2是经过自注意力计算后的结点嵌入。
 然后利用文本提示去计算图中结点的重要性。利用LLM中的字典(???)来获得输入文本中每个标记的嵌入文本 T ∈ R d t \mathcal{T}\in \mathbb{R}^{d_t} TRdt d t d_t dt表示LLM字典的维度。具体来说,首先对嵌入文本 T \mathcal{T} T进行变换,并获得变换后的文本嵌入 T ′ \mathcal{T}' T,确保 T ′ \mathcal{T}' T的维数与节点嵌入 H 2 H_2 H2的维数 d g d_g dg匹配。然后计算cross-modality attention, H 2 H_2 H2作为query, T ′ \mathcal{T}' T作为key和value,计算过程如下:
T ′ = F F N 1 ( σ ( F F N 2 ( T ) ) ) , H 3 = s o f t m a x [ H 2 ⋅ ( T ′ ) T / d g ] ⋅ T ′ \begin{aligned}\mathcal{T}'&=\mathrm{FFN}_1(\sigma(\mathrm{FFN}_2(\mathcal{T}))),\\H_3&=\mathrm{softmax}[H_2\cdot(\mathcal{T}')^T/\sqrt{d_g}]\cdot\mathcal{T}'\end{aligned} TH3=FFN1(σ(FFN2(T))),=softmax[H2(T)T/dg ]T
其中, σ \sigma σ为GELU激活函数, FFN 1 \text{FFN}_1 FFN1 FFN 2 \text{FFN}_2 FFN2是前馈神经网络, H 3 H_3 H3为最终的嵌入。接下来,通过pooling操作生成图级的嵌入:
H 4 = POOL ( H 3 ) H_4 = \text{POOL}(H_3) H4=POOL(H3)
其中, H 4 H_4 H4表示考虑 G ′ \mathcal{G}' G中节点重要性的图级嵌入。

4.3.3、Domain Projector

 为什么要设计Domain Project呢?

 目的是为了建立起图级前嵌入和文本域之间的映射关系,以便LLM理解,弥补了图和文本之间固有的差异,允许更无缝的集成。此外,projector将图级嵌入映射到和LLM的相同维度 d t d_t dt,这确保了与LLM的固有结构对接时的兼容性。projector设计如下:

Z = FFN 3 ( σ ( FFN 4 ( H 4 ) ) ) Z = \text{FFN}_3(\sigma(\text{FFN}_4(H_4))) Z=FFN3(σ(FFN4(H4)))
Z Z Z定义为Graph Neural Prompt(GNP)最终的输出, FFN 3 \text{FFN}_3 FFN3 FFN 4 \text{FFN}_4 FFN4是前馈神经网络

4.3.4、Self-supervised Link Prediction

 为什么要设计Self-supervised Link Prediction?
 尽管交叉熵目标使模型能够学习和适应下游任务的目标数据集,但是又设计了一个链接预测任务,以进一步完善其对实体之间关系的理解,并以自监督的方式捕获图知识。具体来说,掩盖子图 G ′ \mathcal{G}' G中的一些边,并用模型去预测他们。使模型学习使用部分图的内容和结构来推理丢失的链接。

 掩盖边的集合记为 E m a s k ⊆ E \mathcal{E}_{mask} \subseteq \mathcal{E} EmaskE,对于给定的三元组中的头实体,尾实体 { h 3 , t 3 } ∈ H \{h_3,t_3\} \in H {h3,t3}H,采用一种广泛使用的知识图嵌入方法DistMult,将KG中的实体嵌入和关系映射为向量, h , r , t h,r,t h,r,t。然后定义评分函数 ϕ ( e h , e t ) = < h , r , t > \phi(e_h,e_t)=<h,r,t> ϕ(eh,et)=<h,r,t>来生成每个三元组的评分, < ⋅ , ⋅ , ⋅ > <·,·,·> <⋅,⋅,⋅>表示三元线性点积。 r r r表示为KGs中的关系。 ϕ \phi ϕ越高,表明 ( e h , r , e t ) (e_h,r,e_t) (eh,r,et)成为一个正确的正例三元组的机会越大,而不是一个不正确的负例三元组。该模型将 E m a s k \mathcal{E}_{mask} Emask中的掩盖边预测为正,将其他随机边预测为负。(作者定义)
邻接预测的损失函数为:
L l p = ∑ ( e h , r , e t ) ∈ E m a s k ( S p o s + S n e g ) , \mathcal{L}_{lp}=\sum_{(e_{h},r,e_{t})\in\mathcal{E}_{mask}}(S_{pos}+S_{neg}), Llp=(eh,r,et)Emask(Spos+Sneg),

 其中, S p o s = − log ⁡ σ s ( ϕ ( e h , e t ) + γ ) S_{pos}\quad=\quad-\log\sigma_{s}(\phi(e_{h},e_{t})+\gamma) Spos=logσs(ϕ(eh,et)+γ)表示正确正例三元组的得分, γ \gamma γ为margin, σ s \sigma_{s} σs为sigmoid激活函数, { ( e h ′ , r ~ , e l ′ ) } \{(e_h^{\prime},\tilde{r},e_l^{\prime})\} {(eh,r~,el)}是对应于正例三元组 ( e h , r , e t ) (e_h,r,e_t) (eh,r,et)的负例三元组。 S n e g = 1 n ∑ ( e h ′ , r , e t ′ ) log ⁡ σ s ( ϕ ( e h ′ , e t ′ ) ^ + γ ^ ) S_{neg}=\frac{1}{n}\sum_{(e_{h}^{\prime},r,e_{t}^{\prime})}\log\sigma_{s}(\hat{\phi(e_{h}^{\prime},e_{t}^{\prime})}+\hat{\gamma}) Sneg=n1(eh,r,et)logσs(ϕ(eh,et)^+γ^)为不正确负例三元组的得分。最终的目标函数 L \mathcal{L} L定义为 L l l m \mathcal{L}_{llm} Lllm L l p \mathcal{L}_{lp} Llp的加权和:
L = L l l m + λ L l p , \mathcal{L}=\mathcal{L}_{llm}+\lambda\mathcal{L}_{lp}, L=Lllm+λLlp,
其中, λ \lambda λ为平衡参数。

4.4、模型整体框架图

在这里插入图片描述
5、实验结果

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/512250.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vscode 引入外部依赖包

背景 我要在vscode中写一些antlr代码生成的cpp代码&#xff0c;但是在引入头文件#include "antlr4-runtime.h"的时候&#xff0c;出现报错&#xff0c;显示没有这个头文件&#xff0c;显然这是我们没有导入相关的包&#xff0c;因此我首先尝试了将antlr4的依赖源码在…

nginx+Tomcat(反向代理、动静分离、负载均衡)

目录 前言 一、nginx和tomcat组合的架构 二、案例操作 前言 tomcat服务既可以处理动态页面&#xff0c;也可以处理静态页面&#xff1b;但其处理静态页面的速度远远不如nginx和apache服务&#xff0c;但ngingx和apache服务无法直接处理动态页面&#xff0c;下文就讲述了ngi…

windows安装pytorch(anaconda安装)

文章目录 前言一、安装anaconda1、进入官网下载&#xff08;1&#xff09;点击view all Installers&#xff08;2&#xff09;下载需要的版本 2、一顿默认安装就行&#xff08;到这一步这样填&#xff09;3、进入开始找到Anaconda Prompt&#xff0c;点击进入到base环境 二、新…

Python绘图-9饼图(下)

9.6饼图添加阴影 9.6.1图像呈现 9.6.2绘图代码 # 导入相关库 import numpy as np # 导入numpy库&#xff0c;用于处理数组和数值计算 import matplotlib.pyplot as plt # 导入matplotlib的绘图模块&#xff0c;用于可视化 import matplotlib.patheffects as path_effects …

实际中的Stream流的用法

实际中的Stream流的用法 不同对象怎么生成stream流对象 package stream;/*** @author 刘诗良* @version 1.0* @Description*/ import java.util.*; import java.util.stream.Stream;public class StreamDemo {public static void main(String[] args) {//Collection体系的集合…

springBoot-SpringBoot自定义starter

在一个空Maven项目中&#xff0c;新增xxxx-spring-boot-starter和xxxx-spring-boot-autoconfigure两个模块&#xff0c;xxxx是你这个starter是做什么的&#xff0c;模块xxxx-spring-boot-starter主要是作依赖管理&#xff0c;外界使用我们自定义的starter只需要导入我们xxxx-sp…

记 Hyperf booted模型事件的使用

前因 产品经理提了一个需求&#xff0c;要求能自定义内容的创建时间&#xff0c;当前事件大于创建时间时&#xff0c;才能查询到这些内容&#xff0c;并对内容进行操作 我的第一反应&#xff1a;不算麻烦&#xff0c;只需要在仓储层的查询方法中&#xff0c;给每个查询都多加…

Golang Copy()方法学习

前言 主要是涉及到深浅拷贝相关的&#xff0c;但是在看的一个资料过程中发现他有错…并且一系列&#xff0c;复制粘贴他的&#xff0c;也都错了。 错误文章指路 很显然&#xff0c;Copy是深拷贝啊&#xff01;&#xff01;&#xff01; Copy功能 copy的代码很少&#xff0c…

9.WEB渗透测试-Linux基础知识-Linux用户权限管理(上)

免责声明&#xff1a;内容仅供学习参考&#xff0c;请合法利用知识&#xff0c;禁止进行违法犯罪活动&#xff01; 内容参考于&#xff1a; 易锦网校会员专享课 上一个内容&#xff1a;8.WEB渗透测试-Linux基础知识-Linux基础操作&#xff08;二&#xff09;-CSDN博客 用户管…

如何在jupyter notebook 中下载第三方库

在anconda 中找到&#xff1a; Anaconda Prompt 进入页面后的样式&#xff1a; 在黑色框中输入&#xff1a; 下载第三方库的命令 第三方库&#xff1a; 三种输入方式 标准保证正确 pip instsall 包名 -i 镜像源地址 pip install pip 是 Python 包管理工具&#xff0c;…

【笔记】【电子科大 离散数学】 3.谓词逻辑

谓词引入 因为含变量的语句&#xff08;例如x > 3&#xff09;不是命题&#xff0c;无法进行逻辑推理。 为了研究简单命题句子内部的逻辑关系&#xff0c;我们需要对简单命题进行分解&#xff0c;利用个体词&#xff0c;谓词和量词来描述它们&#xff0c;并研究个体与总体…

非阻塞实现高效键盘扫描功能(STM32F4XX)

目录 概述 1 原理分析 1.1 技术背景 1.2 系统硬件 1.3 STM32 IO&#xff08;输入模式&#xff09;寄存器分析 1.3.1 输入IO的功能描述 1.3.2 输入配置 1.3.3 GPIO 寄存器&#xff08;输入模式相关&#xff09; 1.3.3.1 GPIO 端口模式寄存器 1.3.3.2 GPIO 端口上拉/下拉…