NLP论文阅读记录 - 2021 | WOS 基于多头自注意力机制和指针网络的文本摘要

文章目录

  • 前言
  • 0、论文摘要
  • 一、Introduction
    • 1.1目标问题
    • 1.2相关的尝试
    • 1.3本文贡献
  • 二.问题定义和解决问题的假设
    • 问题定义
    • 解决问题的假设
  • 三.本文方法
    • 3.1 总结为两阶段学习
      • 3.1.1 基础系统
    • 3.2 重构文本摘要
  • 四 实验效果
    • 4.1数据集
    • 4.2 对比模型
    • 4.3实施细节
    • 4.4评估指标
    • 4.5 实验结果
      • 4.6 细粒度分析
  • 五 总结
  • 思考


前言

在这里插入图片描述

Text summarization based on multi-head self-attention mechanism and pointer network(21)

0、论文摘要

现有的文本摘要方法主要依靠人工标记的标准摘要与原始文本之间的映射来进行特征提取,往往忽略了原始文档的内部结构和语义特征信息。因此,现有模型提取的文本摘要存在语法结构错误、语义偏离原文的问题。本文试图增强模型对源文本固有特征信息的关注,使模型能够更准确地识别文档的语法结构和语义信息。
因此,本文提出了一种基于多头自注意力机制和软注意力机制的模型。通过在模型编码阶段引入改进的多头自注意力机制,训练模型使正确的摘要语法和语义信息获得更高的权重,从而使生成的摘要更加连贯和准确。同时采用指针网络模型,改进覆盖机制,解决生成摘要时的词汇外和重复问题。本文使用CNN/DailyMail数据集来验证本文提出的模型,并使用ROUGE指标来评估模型。
实验结果表明,与其他模型相比,本文的模型提高了生成摘要的质量。

一、Introduction

1.1目标问题

当前,互联网时刻产生大量文本数据,文本信息过载问题日益严重。需要对各类文本进行降维,因此自动文本摘要的任务应运而生。自动文本摘要[1]是自然语言处理的一个重要研究领域。自动文本摘要从原文中提取一段内容或生成一段新内容来总结原文的主要信息。也就是说,对原始数据进行压缩和提炼最终文本为用户提供了简洁的内容描述。它帮助用户节省了大量的时间,用户可以从摘要中获取文本的所有关键信息点,而无需阅读整个文档。近年来,文本摘要已被应用于生活的许多方面,例如生成报告摘要和自动生成新闻标题[2-5]。目前,自动文本摘要的研究方向可分为抽取式文本摘要[6,7]和抽象式文本摘要[8]。提取文本摘要从原始文本中提取关键句子和关键词以生成摘要。这种方法可能会产生不连贯的摘要并且对字数的控制不佳。效果完全取决于原文的类型。抽象文本摘要是通过重写原始文本内容来生成的,使得生成的摘要能够包含新的词典或短语,更加灵活。因此,本文重点关注抽象文本摘要。
最近,有研究人员使用seq2seq(sequence-tosequence)模型进行抽象文本摘要研究[9-11],模拟人们阅读文档的思维过程,首先提取原文信息全局化,然后总结原文的主要思想。曹等人。 [12] 和 Sutskever 等人。 [13]提出了一种由编码器和解码器组成的序列到序列模型来解决机器翻译问题。巴达瑙等人。 [14]逐渐将序列到序列模型应用于抽象文本摘要。拉什等人。 [15]提出在DUC-2004[16]和Gigaword上使用序列到序列模型和注意力机制生成抽象文本摘要,并使用CNN对原始文本进行编码。该模型具有提取文本信息并生成文本摘要的能力。然而,生成的摘要有一些偏离原文的主要信息并且超出了词汇范围。然后,乔普拉等人。 [17]使用相同的编码器对原始文档进行编码,但他们使用循环神经网络作为解码器,该模型极大地提高了摘要生成的效果。纳拉帕蒂等人。 [18]提出使用关键词和注意力机制来提取原文并对原文进行编码。周等人。文献[19]提出采用选择性编码对原文进行编码,从而增强了原文的信息提取。
在使用序列到序列模型的过程中,研究人员发现该模型可以从原始文本中提取信息,但该模型生成的文本摘要存在词汇外和单词重复问题。为了解决生成摘要中的词汇外问题,Gu 等人。 [20]使用复制机制直接复制原文中的重要单词而不是词汇外的单词来生成摘要。参见等人。 [21]利用覆盖机制和指针生成网络模型为词汇外和单词重复提供了解决方案。覆盖机制可以避免在生成摘要时在同一位置给予多个高注意力权重值,并且可以有效减少摘要生成中的重复单词问题。指针生成网络在序列到序列模型的基础上引入了指针网络[22]。在指针生成网络中,生成摘要时会生成两个概率。即当前单词从词汇表中生成的概率以及在指针处被复制的概率。该网络用于学习两个概率之间的权重。指针生成网络可以有效地适应提取器和抽象网络[23],并已被用于许多抽象生成任务[24,25]。周等人。 [26]继续提出SeqCopyNet来增强生成摘要的可读性,并将完整的输入句子序列复制到摘要中。 [27]使用词义歧义来改进基于查询的文本摘要。王等人。 [28] 和梁等人。 [29]使用强化学习引入文本摘要。 [30]使用包括主编码器和辅助编码器的双编码模型。
一些研究者利用传统的软注意力机制提取原文的关键信息[31],但无法提取原文内部的各种语义和语法信息,导致语法结构错误和语义偏离原文的问题文本。瓦斯瓦尼等人。 [32]提出了一种变压器模型,其中使用新的自注意力机制模型来提取输入文本的信息。实验表明,自注意力机制可以快速提取稀疏数据的重要特征。它已广泛应用于自然语言处理任务中[33-35]。自注意力机制是注意力机制的改进,减少了对外部信息的依赖,更好地捕捉数据或特征的内部相关性。自注意力机制利用注意力机制来计算每个单词与所有其他单词之间的关联,以便模型能够学习不同表示子空间中的相关信息。文本摘要经历了如何提取原始文本信息,如何生成摘要,同时缓解生成摘要过程中出现的未登录词和重复问题。然而,在提取原文信息的过程中,学习原文本身的语义、语法结构和确定关键信息仍然需要研究。并进一步考虑降低单词重复率。因此,这是一个不完善的 Seq2Seq 模型的研究空白[36]。在该模型中,解决了序列到序列模型中出现的问题,并解决了研究的不足。表 1 详细阐述了先前作者的贡献。
本文的其余部分组织如下。第二部分介绍自动文本摘要的问题定义和假设。第三部分详细描述了文中提出的方法。第四部分介绍了本文的基线、数据集、实验和结果分析。最后,文章在第五部分结束。

1.2相关的尝试

1.3本文贡献

总之,我们的贡献如下:

二.问题定义和解决问题的假设

问题定义

随着近年来深度学习的快速发展,序列到序列模型被广泛应用于机器翻译、问答、文本摘要等序列问题。然而,序列到序列模型存在许多问题,例如词汇外问题,这会产生重复问题[15]。为了解决这些问题,See 等人。 [21]提出了指针生成网络,增加了指针网络以及基于注意力机制的对seq2seq模型的覆盖机制,以缓解使用seq2seq带来的问题。指针生成网络采用传统的软注意力机制,无法提取原文内部的各种语义和语法信息,导致生成的摘要中存在语法结构错误和与原文语义偏差的问题。因此,本文认为有必要学习原文的语义和语法结构,确定关键信息。由于长文本摘要的特殊性和多样性,输入的文章通常是具有多个子空间的多个句子。如果模型只关注一个空间,一些信息将会丢失。同时,人们注意到自注意力机制在提取原始文本的关键特征方面还不够。在重现指针生成网络时,发现随着预测摘要长度的增加,覆盖机制的效果逐渐减弱。因此,本研究试图增强原始文本的提取和编码。另外,进一步减少单词的重复率。

解决问题的假设

三.本文方法

3.1 总结为两阶段学习

3.1.1 基础系统

3.2 重构文本摘要

四 实验效果

4.1数据集

4.2 对比模型

4.3实施细节

4.4评估指标

4.5 实验结果

4.6 细粒度分析


五 总结

本文提出了两种基于注意力机制的模型,即MSAPN和MDAPN。两种模型都使用改进的多头自注意力机制来获取原始文本内部的语义和语法信息,从而使生成的摘要文本摘要与文本的语义和语法信息具有相似的含义。此外,这两个模型都使用指针网络和改进的覆盖机制来减少重复内容和词外问题。
实验结果表明,MSAPN模型在ROUGE Recall分数上优于传统的指针生成网络,但在ROUGE Precision分数上效果不佳。为此,提出的MDAPN模型结合门控机制,使得模型的ROUGE指标优于指针生成网络,能够有效包含更多的原始文本信息,生成的摘要更加完整。
然而,MDAPN模型的F1得分值低于现有模型。因此,未来可以通过考虑预训练[43]模型和强化学习[29]来扩展模型,从而提高模型的F1分数。
该模型引入预训练模型来提高文本信息的提取,并通过强化学习减少训练和预测中的暴露偏差,进一步提高摘要的生成。此外,希望未来提出的模型能够应用于不同领域[44]。

思考

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/419427.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SpringBoot+Email发送邮件

引言 邮件通知是现代应用中常见的一种通信方式,特别是在需要及时反馈、告警或重要事件通知的场景下。Spring Boot提供了简单而强大的邮件发送功能,使得实现邮件通知变得轻而易举。本文将研究如何在Spring Boot中使用JavaMailSender实现邮件发送&#xf…

如何使用xlwings库为Excel表格的单元格创建超链接----关于Python里xlwings库对Excel表格的操作(三十九)

这篇小笔记主要记录【如何使用xlwings库为Excel表格的单元格创建超链接】。前面的小笔记已整理成目录,可点链接去目录寻找所需更方便。【目录部分内容如下】【点击此处可进入目录】 (1)如何安装导入xlwings库; (2&…

内网环境横向移动——利用windows服务

利用windows服务进行横向渗透主要是通过sc命令,但是注意这里跟之前windows远程命令相比多了一个条件,即当前主机需要为administrator权限。 sc命令 sc命令是XP系统中功能强大的DOS命令,SC命令能与“服务控制器”和已安装设备进行通讯。SC是用于与服务控…

Excel·VBA合并工作簿2

其他合并工作簿的方法,见之前的文章《ExcelVBA合并工作簿》 目录 8,合并文件夹下所有工作簿中所有工作表,按表头汇总举例 8,合并文件夹下所有工作簿中所有工作表,按表头汇总 与之前的文章《ExcelVBA合并工作簿&#x…

matlab appdesigner系列-常用13-标签

标签,用来显示各类文本 此示例,就是在标签之外的画布上单击鼠标左键,显示王勃的《滕王阁诗》 操作如下: 1)将2个标签拖拽到画布上,并修改相应文字。将第二个标签的右侧文本信息中的Wordwrap打开&#xf…

VisualSVN Server实战

文章目录 一、实战概述二、实战步骤(一)下载VisualSVN Server(二)安装VisualSVN Server(三)使用VisualSVN Server1、新建仓库(1)新建Repository(2)选择仓库类…

开源项目_一键发布 markdown 到各个平台_Wechatsync

1 使用场景 最近文章更新比较频繁,基本是日更。因此花费了相当多的时间在不同平台之间同步。时间主要消耗在:需要大致浏览一遍文章内容,另外某些平台需要手动上传图片,有时还需要调整排版。 为了解决这个问题,我选择…

Vagrant创建Oracle RAC环境示例

利用Vagrant安装Oracle RAC(默认为non-CDB模式),生成2台虚机,耗时约1小时。 node1: -----------------------------------------------------------------node1: INFO: 2024-01-11 18:25:54: Make create database commandnode1: …

Kafka常见指令及监控程序介绍

kafka在流数据、IO削峰上非常有用,以下对于这款程序,做一些常见指令介绍。 下文使用–bootstrap-server 10.0.0.102:9092,10.0.0.103:9092,10.0.0.104:9092 需自行填写各自对应的集群IP和kafka的端口。 该写法 等同 –bootstrap-server localhost:9092 …

树莓派4B 刷ubuntu20.4.5配置 网线连接 找不到IP解决

跟随的教程: 【树莓派教程第一课 树莓派简介 十分钟玩转系列入门篇】 https://www.bilibili.com/video/BV16U4y1879Q/?p6&share_sourcecopy_web&vd_sourceb96879a51029063390138a2b464a7446 遇到的问题: 在我刷好ubuntu到系统卡并在根目录创建…

二叉树基础oj题目

二叉树基础oj题目及思路总结 前文中,介绍了二叉树的基本概念及基础操作,进一步对于二叉树的递归遍历及子问题的处理思想有了一定的了解。本文将带来几道二叉树经典的oj题目。 目录 二叉树基础oj题目 对称二叉树平衡二叉树二叉树的层序遍历 二叉树基…

【书生·浦语】大模型实战营——第六课笔记

视频链接:https://www.bilibili.com/video/BV1Gg4y1U7uc/?vd_source5d94ee72ede352cb2dfc19e4694f7622 教程文档:https://github.com/InternLM/tutorial/blob/main/opencompass/opencompass_tutorial.md 仓库:https://github.com/open-compa…