文本分类的深度注意图扩散网络 笔记

1 Title

        Deep Attention Diffusion Graph Neural Networks for Text Classification(Yonghao Liu、Renchu Guan、Fausto Giunchiglia、Yanchun Liang、Xiaoyue Feng)【EMnlp 2021】

2 Conclusion

        Text classification is a fundamental task with broad applications in natural language processing. Recently, graph neural networks (GNNs) have attracted much attention due to their powerful representation ability. However, most existing methods for text classification based on GNNs consider only one-hop neighborhoods and low-frequency information within texts, which cannot fully utilize the rich context information of documents. Moreover, these models suffer from over-smoothing issues if many graph layers are stacked. In this paper, a Deep Attention Diffusion Graph Neural Network (DADGNN) model is proposed to learn text representations, bridging the chasm of interaction difficulties between a word and its distant neighbors.

3 Good Sentences

        1、Previous shallow learning-based text classification approaches mainly use hand-crafted sparse lexical features, such as bag-of-words (BoW) or n-grams, for representing texts (Li et al., 2020). Since these features are predefined, the models do not take full advantage of the large amount of training data.(The disadvantages of previous methods)
        2、 Theoretically, we can capture long-range dependencies between words with a large number of layers. However, a common challenge faced by most GNNs is that performance degrades severely when stacking multiple layers to exploit larger receptive fields. Some researchers attribute this phenomenon to over-smoothing indistinguishable representation of different classes of nodes.(The challenges of GNNs meet and its probably reason)
        3、One crucial reason why our model achieves more significant improvements is that the receptive field of the target node is enhanced by attention diffusion, which incorporates more informative messages (i.e., both low-frequency and high-frequency information) in the text.(The reason why this method have an advantage)


       

  1. 问题背景:文本分类是自然语言处理中的基础任务,图神经网络(GNNs)因其强大的表示能力而受到关注。然而,现有的基于GNN的文本分类方法通常只考虑单跳邻域和文本中的低频信息,无法充分利用文档的丰富上下文信息。

  2. 现有方法的局限性

    • 受限的感受野:大多数方法只允许图中的词访问直接邻域,无法实现长距离词交互。
    • 较浅的层数:当前基于图的模型通常采用较浅的设置,因为它们在两层图中表现最佳,但无法提取超过两跳邻居的信息。
    • 非精确的文档级表示:大多数模型使用简单的池化操作(如求和或平均)来获取文档级表示,这会削弱一些关键节点的影响。
    • 低通滤波器:现有的基于图的方法主要是固定系数的低通滤波器,主要保留节点特征的共性,忽略了它们之间的差异。
  3. DADGNN模型:为了克服上述限制,提出了DADGNN模型,该模型使用注意力扩散技术扩大每个词的感受野,并解耦GNNs的传播和转换过程以训练更深层的网络。此外,通过计算每个节点的权重来获得精确的文档级表示。

DADGNN有三个主要组成部分:文本图构建、关键组件和图级表示。

文本图构建

这样构造的图的优点是图是有向的,其转移矩阵就是对称的,

Key Components

为了获得深层网络中节点的判别特征表示,本文解耦了GNN的传播和转换过程。具体表述为:

        与传统GNN不同,对于直接相连的节点对,本文使用公式3和4计算它们之间的注意力权重,并进行归一化处理:

其中W_{l}为权重矩阵,a_l为权重向量,是第l层共享的可训练参数。A_l是第l层的图注意矩阵。另外,σ是ReLU激活函数。

后续可以通过扩散机制计算复杂网络中不直接连接的节点之间的注意力。

        根据注意矩阵A,得到图的注意扩散矩阵T如下:,其中ζn是可学习的系数,依赖于所构建的图网络所展示的属性。

如图所示,模型通过一个单层的注意力扩散过程来考虑节点之间的所有路径,从而捕获断开节点的信息。例如(目标节点是“graph”,为简洁起见,删除(a)的不相关边),

        在实际应用中,考虑到现实世界网络中小世界现象的特点,即任意两个节点之间的最短路径通常不会太长(最多四或六个跳),

为了进一步提高注意扩散层的表达能力,本文部署了一个多头注意扩散机制。具体来说,先独立计算每个头k的注意力扩散,然后将它们聚合。输出特征表示如下:

其中||是连接操作和W_a表示转换维度的权重矩阵

 Graph-Level Representation:

        在传播模型的第l层之后,就可以计算每个文本图上所有节点的最终表示。为了衡量图中每个节点的不同作用,与使用一般池化的基于图的文本分类模型相比,采用了节点级关注机制。具体可以用下式表示:其中,W_b是可训练的权重矩阵,\Psi _i表示图中节点 i 的注意力系数。为了获得每个类别的概率,进一步执行

最后,使用交叉熵损失作为目标函数来优化用于文本分类的神经网络。

其中,D 是训练数据集,Φ 是指标矩阵。需要注意的是,我们的模型可直接用于归纳学习任务,对于未见过的测试文档,相应构建的图可直接输入训练好的模型进行预测。此外,它是以端到端的方式进行训练的,这意味着在优化网络时会同时考虑可学习的参数。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/697034.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于SpringBoot + MySQL的宠物医院管理系统设计与实现+毕业论文+指导搭建视频

系统介绍 项目的使用者可以避免排队挂号,比较方便,也方便于宠物医院的管理。现在的宠物本系统根据华阳社区宠物医院管理工作流程将系统使用者划分为三类,分别为、宠物医生、宠物主人以及系统管理人员,以下是对该三类类用户的具体…

大模型微调方法汇总

微调方法 Freeze方法P-tuning方法 prefix-tuningPrompt TuningP-tuning v1P-tuning v2Lora方法 重要相关参数LoRA 的优势Qlora方法 相关参数微调经验 模型选择模型大小选择数据处理微调方案英文模型需要做词表扩充吗?如何避免灾难遗忘大模型的幻觉问题微调后的输出…

人脸消费给传统食堂带来的变化

消费的技术基础是脸部识别,脸部识别是基于人的容貌特征信息进行认证的生物特征识别技术,其突出的特征是以非接触方式进行识别,避免个人信息的泄露。 面部识别和指纹识别、掌纹识别、视网膜识别、骨骼识别、心率识别等都是人体生物特征识别技术…

408数据结构-哈夫曼树 自学知识点整理

前置知识:二叉树的概念、性质与存储结构 哈夫曼树 哈夫曼树的定义 首先需要明确几个概念。 路径:从树中的一个结点到另一个结点之间的分支构成这两个结点之间的路径。 路径长度:路径上的分支数目称为路径长度。 权(值):树中结点…

【论文精读】| KBS2023-TMBL-多模态情感分析系列文章解读

TMBL: Transformer-based multimodal binding learning model for multimodal sentiment analysis 一. KBS2023-TMBL-用于多模态情感分析的极向量和强度向量混合器模型1 Abstract1.1 Motivation1.2 Method1.3 Results 2. Related Work2.1 情感分析2.1 基于transformer的2.1 模态…

基于Echarts的大数据可视化模板:服务器运营监控

目录 引言背景介绍研究现状与相关工作服务器运营监控技术综述服务器运营监控概述监控指标与数据采集可视化界面设计与实现数据存储与查询优化Echarts与大数据可视化Echarts库以及其在大数据可视化领域的应用优势开发过程和所选设计方案模板如何满足管理的特定需求模板功能与特性…

基于Java的qq截图工具参考论文(论文 + 源码)

【免费】基于Java的qq截图工具.zip资源-CSDN文库https://download.csdn.net/download/JW_559/89304179 基于Java的qq截图工具 摘要 当今时代是飞速发展的信息时代,人们在对信息的处理中对图像的处理量与日俱增,这一点在文档人员上显得非常突出。 本软…

将mongo查出的数据导出来,变成json,然后转Excel

在MongoDB shell或使用命令行工具(如mongo或mongosh)中,你可以将查询结果输出到JSON文件。以下是一个示例命令,它执行上述聚合查询并将结果写入名为output.json的文件: mongo your_database_name --quiet --eval db.u…

【qt】数值的输入与输出

数值的输入与输出 一.与c中的输入与输出的区别二.QString转数值三.数值转QString1.number()2.asprintf() 四.小项目1.总价和进制2.QSpinBox代替3.QSlider滑动块4.QScrollBar滚动条5.QDial表盘6.QLcdnumber lcd显示 五.总结一下下 一.与c中的输入与输出的区别 在c中我们一般通过…

【每日刷题】Day39

【每日刷题】Day39 🥕个人主页:开敲🍉 🔥所属专栏:每日刷题🍍 🌼文章目录🌼 1. 622. 设计循环队列 - 力扣(LeetCode) 2. 387. 字符串中的第一个唯一字符 - …

实训七:实现用户管理功能

1.题目 实现用户管理功能。 2.目的 (1)理解Node.js程序的基本原理。 (2)掌握利用Node.js建立服务器程序的基本方法。 (3)理解Ajax的工作原理。 (4)掌握编写Ajax程序的基本方法。 (5)会利用所学知识设计简单的应用程序。 3.内容 设计程序能够对用户进行管理,实现查询…

出租车计价器设计与实现(论文 + 源码)

关于java出租车计价器设计与实现.zip资源-CSDN文库https://download.csdn.net/download/JW_559/89304164 出租车计价器设计与实现 摘 要 在我国,出租车行业是八十年代初兴起的一项新兴行业,随着出租车的产生,计价器也就应运而生。但当时在全…