NLP论文阅读记录 - 2021 | WOS 使用 GA-HC 和 PSO-HC 改进新闻文章的文本摘要-编程知识

文章目录

前言
0、论文摘要
一、Introduction
- 1.1目标问题
- 1.2相关的尝试
二.相关工作
三.本文方法
- 3.1 总结为两阶段学习
- - 3.1.1 基础系统
- 3.2 重构文本摘要
四实验效果
- 4.1数据集
- 4.2 对比模型
- 4.3实施细节
- 4.4评估指标
- 4.5 实验结果
- - 4.6 细粒度分析
五总结
思考

前言

在这里插入图片描述

Improved Text Summarization of News Articles Using GA-HC and PSO-HC（21）

0、论文摘要

自动文本摘要 (ATS) 正在引起人们的关注，因为大量数据正在以指数速度生成。由于全球互联网的便捷性，社交网站、新闻网站和博客网站正在生成大量数据。手动摘要非常耗时，并且难以阅读和总结大量内容。自动文本摘要就是解决这个问题的解决方案。本研究提出了两种自动文本摘要模型，即层次聚类遗传算法（GA-HC）和层次聚类粒子群优化（PSO-HC）。所提出的模型使用带有层次聚类算法的词嵌入模型来对传达几乎相同含义的句子进行分组。针对新闻文本文档中的文本摘要，提出了基于改进的遗传算法和自适应粒子群优化的句子排序模型。进行模拟并与其他正在研究的算法进行比较，以评估所提出方法的性能。仿真结果验证了所提出方法的优越性能。

一、Introduction

1.1目标问题

被称为万维网的互联网技术在过去二十年中取得了很大进步。在当今时代，互联网在世界各地都很便宜且易于使用。这导致信息呈指数级增长[1]。由于大量用户的存在，不同类型的内容创作和社交网络组织已将方向转向互联网，以接触更多的受众。甚至报纸和新闻频道也开始采用互联网进行新闻报道和发布新闻文章。
阅读全球各地每分钟不断上传的网页或文章是很麻烦的。此外，人类不可能读取大量信息。用户通常不会阅读整个网页或文章，而是只是扫描整个页面或文章，只是为了检索几个句子或这些句子的部分内容，以获取该文章或网页中全部信息的主要症结[2]。如此海量的信息，用户很难识别出其中的重要部分或内容句子的某些部分在更短的时间内以极高的精度和准确性抓住了整篇文章的主要症结[3]。
文本摘要是从大量信息中给出中心思想或主要信息的最有效和最简单的技术之一。从早期开始就使用手动文本摘要，当时传达信息的唯一方式是通过书籍或报纸。手动文本摘要可能存在偏见，并且耗时且出错的可能性较高。此外，对于大量数据而言，摘要文档的准确性和精确度是不可能的[4]。
自然语言处理（NLP）表达了人类语言与计算机之间的交互。自动文本摘要是 NLP 的一个子领域，它解决了借助机器学习从冗余信息包围的数据中进行信息检索的问题。文本摘要的生成时间较短，并且具有很高的精度和准确度 [5]。 Luhn[3]提出了借助机器学习的文本摘要，该模型提取论文摘要并将其呈现为文本摘要。
在单文档文本摘要中，假设单个文档作为输入，而简短的摘要段落被视为输出[6]。多文档文本摘要是在单文档文本摘要方法之后引入的，并且比单文档文本摘要更复杂。多文档文本摘要与单文档文本摘要类似。然而，多文档文本摘要将多个文档作为输入并提供单个摘要段落[7]。

1.2相关的尝试

文献中在输出方面也提出了文本摘要技术。文本摘要技术有两种类型，一种是抽取式文本摘要方法，另一种是抽象文本摘要技术。在提取文本摘要中，最终摘要考虑了与输入文档中提供的句子相同的句子，仅选择重要的句子并将其加入一个段落中并呈现为提取摘要[8]。提取文本摘要是自动文本摘要领域中第一个被引入的方法[9]。自动文本摘要的第二种方法称为抽象文本摘要。抽象文本摘要使用相同的方法来识别和提取句子，但以传达相同含义的不同单词和句子给出输出摘要[10]。抽象摘要就像人类用自己的话写摘要，而不是使用文档中相同的句子和单词。抽象文本摘要出现在提取文本摘要之后，并且比提取文本摘要技术更复杂[11]。文献中存在许多文本摘要技术。摘要的准确性仍然是文本文档中的一个具有挑战性的问题。文本摘要被认为是非凸、NP 难题。元启发式方法在处理非凸和 NP 难题方面表现出色。因此，拟议的工作考虑进化计算方法来总结文本文档。

本文的其余部分组织如下：第二节讨论文本摘要领域的相关研究工作。在第 3 节中，详细解释了所提出的提取文本摘要技术。第 4 节讨论了实验设置和模拟结果。最后，第五节总结了拟议的研究工作。

二.相关工作

文献综述根据文献类型（单文献或多文献）分为三个小节。
[12] 中的作者讨论了用于文本摘要的 k 均值聚类。此外，根据 APRIORI 概率将分数分配给聚类。最后选择得分高的句子进行总结。 [13]中提出了一种使用遗传算法的自动提取文本摘要方法，用于优化特征得分和应用模糊逻辑对所有句子进行评分。最后，选择得分较高的句子并在摘要中呈现。
[14]中的模型考虑了文本摘要的文本排名算法。还为网页设计人员引入了级联样式表 (CSS) 属性，可以借助文本摘要减少较小屏幕上的冗长文本。在[15]中，提出了无监督图排序的词句关系。该模型以良好的准确性整合了单词和句子的内在价值。
在[16]中，提出的集成模型利用并行集成方法，对投票系统进行分类以进行文本摘要。 [17] 中提出了一种错误报告文本摘要技术。该模型将模糊 c 均值聚类应用于相似句子，并应用模糊逻辑来决定添加或丢弃最终摘要的句子。
[18]中讨论的文本摘要技术研究了文本摘要的语义和统计特征。该模型使用Word2Vec提取语义，并使用K-means对相似句子进行分组，对所有句子进行排名，并将排名前n的句子视为文档摘要。然而，没有考虑其他聚类技术，例如模糊c均值和层次聚类。
[19] 中提出了一种阿拉伯语单文档文本摘要模型。作者提出了两种文本摘要方法：一种是基于评分的方法，另一种是二元分类器方法。训练二元分类器来预测该句子是否是最终摘要的一部分。
[20]中介绍了一种自适应的基于知识的事件索引（KB-EI）认知模型。该模型将基于人类记忆和情感的认知过程应用于文本摘要任务。该模型具有用于识别信息丰富句子的学习阶段和用于用重要句子总结文档的摘要阶段。
多文档摘要（MDS）：在[21]中，作者将多文档提取文本作为多目标优化问题提出，并提出人工蜂群优化（ABC）算法来生成文本摘要。 [22] 中的作者应用递归神经网络（RNN）来提取文档中存在的图像，并使用逻辑分类器来查找文档中存在的每个句子的概率以生成最终摘要。在[23]中，PSO应用于离散和连续向量空间，并使用情感分析来消除冗余。 [24]中讨论的模型考虑了鲨鱼气味优化（SSO）算法来总结多个文档。研究 SSO 来优化提取的用于文档摘要的特征的权重。
[25]的作者提出了一种基于质心技术和句子嵌入的文本摘要模型。 [26]中使用了抽象文本摘要模型。该模型使用具有时间衰减注意力机制的生成对抗网络（GAN）来选择重要句子和生成摘要。在[27]中，作者提出了 27 条使用模糊逻辑进行摘要生成的文本分类规则。 [28] 中的作者提出了模糊逻辑来识别和映射重叠词。为了克服文本文档中的重复句子问题，所提出的方法考虑了基于图的技术来生成摘要。
[29] 中讨论了一种提取式单文档文本摘要技术。根据所提出技术的作者的说法，科学文献中还没有使用半图方法解决文本摘要任务的工作。所提出的技术使用半图方法 ESSg 来总结文本。 [30]讨论了一种元启发式优化模型多文档文本摘要方法。该方法使用猫群优化（CSO）算法对多文档进行文本摘要。在[31]中，作者提出了文本摘要的模糊逻辑，并应用余弦相似度函数从提取的摘要中去除冗余[32] 的作者讨论了一种用于总结文本、图像、音频和视频的多模态摘要 (MMS) 技术。所提出的技术使用 LexRank音频和文本摘要算法以及跨模式分析用于弥合文本和图像之间的差距。在视频中提取关键帧。使用 Flickr30K 和 MSCOCO 数据集上预先训练的模型进行语义分析。
Hybrid 文档摘要（HDS）：HDS 由单文档和多文档组成。 [33] 中的作者引入了一种基于循环神经网络（RNN）的新层次结构，用于提取文本摘要。该模型在单词级别和句子级别应用了两个级别的注意力机制。 [34]中提出了一种混合神经提取文本摘要模型，称为上下文化表示分层注意摘要（CRHASum）网络。该模型能够学习上下文语义和特征关系以进行文本摘要。该模型由词级注意力和句子级注意力组成。句子级注意力采用贪婪方法来选择句子
[35]中的文本摘要模型使用聚类和优化算法进行文本摘要。该模型使用 K-means 算法进行聚类，并使用差分算法的扩展版本（称为二元差分算法）进行文本摘要任务。所提出的模型称为 COSUM。作者在[36]中解释的文本摘要模型应用句子角色标记进行语义分析，并使用无向加权图模型进行文本摘要。该模型总结了单个文档和多个文档。该模型采用 PageRank 算法来生成图。所提出的模型称为 SRL-ESA-TextSum

三.本文方法

3.1 总结为两阶段学习

3.1.1 基础系统

3.2 重构文本摘要

四实验效果

4.1数据集

4.2 对比模型

4.3实施细节

4.4评估指标

4.5 实验结果

4.6 细粒度分析

五总结

在本文中，提出了自动文本摘要模型的两种变体。所提出的方法采用文本句子中出现的单词的分布式语义，并使用层次聚类技术对相似的句子进行分组。 GAHC应用GA来优化提取特征的结果，而PSO-HA使用PSO来优化提取特征的结果。最后，根据一定的阈值选择排名靠前的句子并组合起来进行总结。句子的位置与原文中的位置保持一致。我们的工作可以总结为：应用单词和语义的潜在含义作为文本摘要中的特征，以生成改进的更好的摘要。 b.层次聚类技术可以产生更好的结果c．用于优化特征分数的进化技术可用于生成更好的摘要。在未来的工作中，将考虑人类评估，这可以进一步增强模型性能。此外，还可以考虑文档的可读性、正确性、完整性、紧凑性等多个方面来提高摘要的质量。此外，深度学习模型将被考虑用于数据提取并使用元启发式技术进行优化[56-62]。