科研学习|论文解读——指导关键词组提取的局部词向量

原文标题

Local word vectors guiding keyphrase extraction

摘要

自动关键词组提取是一项基本的文本信息处理任务,涉及到从文件中选择具有代表性的短语来概括其内容。这项工作提出了一种新的无监督的关键词组提取方法,其主要创新点是使用局部词嵌入(特别是GloVe向量),即从所考虑的单个文档中训练出来的嵌入。我们认为,这种对单词和关键词组的局部表示能够准确地捕捉它们在文档中的语义,因此有助于提高关键词组的提取质量。实证结果提供的证据表明,与在非常大的第三语料库或由同一科学领域的多个文档组成的更大的语料库上训练的嵌入以及其他最先进的无监督关键词组提取方法相比,局部表示确实可以带来更好的关键词组提取结果。

1.引言

        关键词组提取是指从文档中选择一组短语,这些短语汇总了该文档中讨论的主要主题。自动关键词组提取是数字内容管理中的一项基本任务,因为它可用于文档索引,进而可计算文档间语义相似度,并可改善数字图书馆浏览。此外,其还提供了一种文档摘要的方法。

        自动关键词组抽取的有监督机器学习方法依赖于带注释语料库。然而,人工选择每一份文件的关键词组需要投入时间和金钱,具有很大的主观性。在许多情况下,由于误解,所提取的关键词组包含一个或多个非核心主题,或者它们错过了文档中讨论的一个或多个重要主题。此外,有监督方法常常不能很好地概括来自不同内容领域的文档,而不是来自训练语料库,可能需要重新训练以处理概念漂移,而且易受文档不同词汇表和作者不同写作风格影响。

        我们的方法从给定学术出版物的全文中学习到局部词向量,我们就会计算其标题和摘要中词的平均向量(参考向量);然后,从标题和摘要中提取候选关键词组,并根据它们与参考向量的余弦相似度对它们进行排序,越接近参考向量的词向量就越有代表性。

2.相关工作

2.1 自动关键词提取

有监督方法        

在有监督学习中,分类器在带关键词组注释的文档上进行训练,以确定一个候选短语是否是关键短语。著名方法:的KEA系统、二值分类模型CeKE(决策阈值为0.9的朴素贝叶斯分类器) 、循环神经网络等。

无监督方法

        无监督的关键词组提取方法通常遵循标准的三阶段过程。第一阶段涉及根据一些启发式方法选择候选词汇单元,例如排除停用词或选择名词或形容词。第二阶段涉及通过共现统计或句法规则测量它们的重要性来对这些词汇单元进行排名。第三阶段涉及关键词组的形成,其中排名靠前的词汇单元被用作关键字或关键词组的组成部分。著名方法:Tf-Idf、基于图的排序算法(PageRankHitsTextRankSingleRankPositionRankCiteTextRank)等。

2.2 密集向量

3.参考向量算法

3.1 候选词组生成

        我们遵循先前关键词提取系统的选择,仅提取一元、二元和三元词组,因为这些是实验研究使用数据集中最常见的关键词。通过这种方式,我们可以将 n 的值限制为 {1, 2, 3} 来有效地减少可能作为候选关键词组的数量。因为一般情况下,文档关键词组倾向于三元组合。

    候选词(一元组):是构成较长关键词组最小但最重要的部分。选择标准如下:

候选词字长应小于 36 且大于 2 个字符;
不属于我们定义的停止词列表;
不是数字;
不包括以下字符集: ! @ # $ 、*、 = + 、。 ?, >, <, &, (,), {, }, [, ], ∣

        候选二元组:我们选择那些候选一元组中以特定顺序出现在文本中的词作为候选二元组。我们不会将两个词的长度都低于4的那些作为候选二元组。候选三元组处理同二元组。

3.2 候选词组打分

4.实验

4.1 章节安排

        首先,介绍实证研究中使用的两个集合,以及一些有趣的统计数据;然后,描述评价框架和实验设置;最后,讨论结果,提供一个定量和定性的评估建议的方法。

4.2 数据集及统计

        实证研究基于2个受欢迎的科学出版物合集(a)Krapivin,其中包含由ACM发表的来自计算机科学领域的2304篇科学全文文章,以及作者指定和编辑更正的关键词,以及 (b) Semeval,其中包含来自ACM数字图书馆的244篇科学全文文章,以及作者指定的和读者指定的关键词。我们对这两个数据集都进行了预处理,以便将每个文档的上半部分(Krapivin的标题、摘要和Semeval的标题、摘要、类别/主题描述符以及ACM计算分类系统的一般术语)与其余部分(正文)分开。Krapivin数据集的细化过程相当简单,因为标题和摘要都清楚地标明了。Semeval较难(正文通常以标题中包含 “Introduction”一词的衍生词的部分开始)。

        1显示了每个集合中每个不同长度(词数)的关键词组的频率。可以看到,大多数关键词组是二元组,然后是一元组/三元组。带有46个单词的关键短语出现的频率较低,同时也存在一些带有79个单词的异常值。

4.3 实验步骤

4.4 Glove训练中基于文本大小的RVA变量评估

        在本节中,我们通过改变词向量的维度在不同的语料库大小上训练 GloVe 模型,包括使用在海量网络数据集上训练的词向量(预训练词向量)来大致了解 RVA 算法的性能.

        由于这是第一次以这种方式使用此类本地词向量,我们准备了一项实验研究,旨在为我们提供关于参考向量作为关键词组提取过程指南的参考。出于这个原因,我们设计了另外两个不同版本的提议的RVA方法

全文参考向量算法 ( RVA-F-F ) :候选词和参考向量,是通过对出现在全文中的单个局部词向量进行平均来计算的,而不仅是在标题和摘要中。
全文候选的参考向量算法 ( RVA-A-F ) :使用整篇文章中的候选一元、二元和三元,而不像 RVA 那样局限于文章的摘要。但是,参考向量仍然仅根据标题和摘要计算。
RVA-A-A

        表2详细描述了用于GloVe训练的向量维度和文本大小方面的不同设置,并提供了结果表3中使用的相应缩写。

4.5 与其他算法比较

4.6 定性结果:实践中的RVA

5.结论与未来工作

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/538093.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一款前端开发工具Hbuilder

背景&#xff1a;最近日在接触前同事留下的一个VUE项目&#xff08;只有前端代码&#xff0c;后台服务压根没写真不知道以前是怎么糊弄过去的&#xff09;时&#xff0c;发现一款可以快速开发前端的软件&#xff1b;今日分享一下。 当我打开项目时发现&#xff0c;有个app.vue…

Python 界面逻辑分离示例

本示例使用的发卡设备&#xff1a;https://item.taobao.com/item.htm?id615391857885&spma1z10.5-c.w4002-21818769070.11.6cc85700Robi3x 一、Python 安装PyQt5&#xff0c;运行 Qt Designer 新建窗体文件&#xff0c;在窗体中拖放控件 完成界面设计&#xff0c;保存为…

沙漠邮局x林氏家居,见证极致品质无惧极端环境

在北纬38.5N,东经105E的腾格里沙漠腹地,有一座全世界最孤独的邮局——沙漠邮局。它是中国邮政旗下特色邮局之一,更是全球唯一一座以沙漠为元素的主题邮局。沙漠邮局虽身处沙漠极端环境,但始终如一履行职责,用信件传递温暖,用孤独治愈孤独。 然而,随着岁月流逝,沙漠的极端环境对…

word文档注音小技巧:word注音怎样才能只留拼音不要声调 注音的魅力:只有拼音,无需声调

汉字&#xff0c;作为中华民族几千年的文化瑰宝&#xff0c;其独特的构造和深厚的内涵吸引了无数的学者和爱好者。而在汉字的发音上&#xff0c;我们长期以来依赖于声调来准确表达每个字的意义。但近年来&#xff0c;一种新型的汉字注音方式逐渐崭露头角&#xff0c;那就是“注…

C#,蛇梯问题(Snake and Ladder Problem)的算法与源代码

1 蛇梯问题 Snake and Ladder Problem 给定一个蛇梯板,找出从源单元格或第一个单元格到达目标单元格或最后一个单元格所需的最小掷骰次数。基本上,玩家可以完全控制掷骰子的结果,并希望找出到达最后一个单元格所需的最小掷骰次数。 如果玩家到达的牢房是梯子的底部,玩家…

linux升级gcc版本详细教程

0.前言 一般linux操作系统默认的gcc版本都比较低&#xff0c;例如centos7系统默认的gcc版本为4.8.5。gcc是从4.7版本开始支持C11的&#xff0c;4.8版本对C11新特性的编译支持还不够完善&#xff0c;因此如果需要更好的体验C11以及以上版本的新特性&#xff0c;需要升级gcc到一个…

Tensorflow笔记(二):常用函数2、激活函数、优化器等、神经网络模型实现(商品销量预测)

import tensorflow as tf import numpy as np from tqdm import tqdm# ----------------------------- tensor常用函数2 ----------------------------------- a tf.constant([1, 2, 3, 1, 2]) b tf.constant([0, 1, 3, 4, 5]) c tf.where(tf.greater(a, b), a, b) # 若a&g…

采购代购系统独立站,接口采集商品上货

采购代购系统独立站的建设与商品上货接口的采集是一个综合性的项目&#xff0c;涉及前端开发、后端开发、数据库设计以及API接口的对接等多个环节。以下是一个大致的步骤和考虑因素&#xff1a; 一、系统规划与需求分析 明确业务需求&#xff1a;确定代购系统的核心功能&…

尚硅谷SpringBoot项目--微头条实战(有完整项目代码)

目录 项目模块 技术栈 功能展示 环境搭建 前端环境搭建&#xff1a; 后端环境搭建&#xff1a; 数据库创建&#xff1a; &#xff08;建议使用数据库软件操作&#xff09; springboot项目搭建&#xff1a; mybatis-plus逆向工程 后端功能开发 用户模块开发 jwt 与…

基于SpringBoot的“实验室管理系统”的设计与实现(源码+数据库+文档+PPT)

基于SpringBoot的“实验室管理系统”的设计与实现&#xff08;源码数据库文档PPT) 开发语言&#xff1a;Java 数据库&#xff1a;MySQL 技术&#xff1a;SpringBoot 工具&#xff1a;IDEA/Ecilpse、Navicat、Maven 系统展示 登录界面 注册界面 实验室界面 设备界面图 消耗…

使用Python批量实现在Excel里新加一列

目录 一、引言 二、所需库介绍 三、代码实现 四、批量处理多个Excel文件 五、注意事项与扩展 六、案例演示 七、总结与展望 一、引言 Excel作为广泛使用的电子表格软件&#xff0c;在数据处理和分析中扮演着重要角色。然而&#xff0c;当面对大量Excel文件需要批量处理…

【六】【算法分析与设计】二分查找

69. x 的平方根 给你一个非负整数 x &#xff0c;计算并返回 x 的 算术平方根 。 由于返回类型是整数&#xff0c;结果只保留 整数部分 &#xff0c;小数部分将被 舍去 。 注意&#xff1a;不允许使用任何内置指数函数和算符&#xff0c;例如 pow(x, 0.5) 或者 x ** 0.5 。 示…