Unified Named Entity Recognition as Word-Word Relation Classification

原文链接:https://arxiv.org/pdf/2112.10070.pdf

AAAI 2022

介绍

         NER主要包括三种类型:flatoverlap和discontinuous。目前效果最好的模型主要是:span-based和seq2seq,但前者注重于边界的识别,后者可能存在exposure bias。

        作者对entity words之间的相邻关系进行建模,将NER定义为一个word-word之间的关系分类任务,一共定义三种关系NONENext-Neighboring-Word(NNW)Tail-Head-Word-*(THW-S)如下图所示:

方法

        模型的整体架构如下图所示,主要包括三个部分:BERT和LSTM组合而成的encoder、用于建立和完善word-pair grid表征的卷积层,Biaffine和MLP联合的分类层

Encoder Layer

        使用BERT+BiLSTM来作为encoder,将一个词的pieces经过一个max pooling来得到该词的表征,送入到BiLSTM来进一步获取上下文信息,得到word表征为H=\left \{ h_{1},h_{2},h_{3},,,h_{N} \right \}\subseteq R^{N\times d_{h}}d_{h}表示每个word embedding的维度。

Convolution Layer 

        使用CNN来优化表征,包括三个模块,1)condition layer,用于生成word-pair grid的表征;2)用于丰富word-pair grid表征的bert式grid表征;3)用于捕捉相邻词和distant word之间交互的多粒度扩张卷积。 

Conditional Layer Normalization

        为了预测word pairs之间的关系,将word-pair gird的表征视为3维的矩阵V,vij表示word pair(xi,xj),而不是(xj,xi),因为NNW和THW关系是有方向的,Vij由xi和ji计算得出。如下所示: 

BERT-Style Grid Representation Build-Up 

        BERT中的输出由token embedding、position embedding和segment embedding组成,作者受此启发,使用V\subseteq R^{N\times N\times d_{h}}(词的信息)、E^{d}\subseteq R^{N\times N\times d_{E_{d}}}(每对单词之间的相对位置)和E^{t}\subseteq R^{N\times N\times d_{E_{t}}}(区域信息,用于表示网格中上三角和下三角)这三种embedding进行concate后送入MLP得到最终的网格表征C\subseteq R^{N\times N\times d_{c}}: 

Multi-Granularity Dilated Convolution

         使用不同扩张率(l = 1,2,3)的二维扩张卷积来捕获不同距离word之间的交互,经过多次扩张中,得到最终word-pair的表征Q=[Q^{1},Q^{2},Q^{3}],

Co-Predictor Layer 

        作者使用MLP和biaffine分别进行预测分类(作者说是因为之前有论文说这样效果更好),最将两者的结果进行合并。不过biaffine模型是将encoder的输出作为输入(即图中虚线的表示) ,使用两个MLP分别计算xi和yj的word presentation,然后使用biaffine classifier来计算这对词之间的关系分数作为预测结果:

        而NLP是基于word-pair grid表征Q_{ij},使用一个MLP来计算单词对之间的分数y{}''_{ij},最后将两者的结果进行结合:

Decoder 

        以上步骤后,模型的输出可以视为一个词的有向图,解码的目标就是利用NNW在图中找到从一个词到另一个词的特定路径,每条路对应着一个实体部分。下图描述了4种从易到难的情况:

         4)仅使用NNW关系的情况下能在这个例子中找到4条路径,如果只使用THW只能找到识别到ABCD,而不是ACD或者BCD,因此通过同时使用这两者关系来获得正确答案。

Learning

        损失函数:

        N是句子中单词的个数,y是gold relation labels的二值向量(xi,yj),r表示集合R中预定义好的第r种关系。 

实验

对比试验

        在英文flat NER数据集上进行实验,结果如下所示:

        在中文flat NER数据集上进行实验,结果如下图所示:

         在英文overlap数据集上进行实验,结果如下图所示:

        在discontinuousNER数据集上进行实验,结果如下图所示: 

        在中文overlapNER数据集上进行实验,结果如下图所示:

        作者在只有overlap和discontinue的数据集进行了实验,结果如下图所示,这样一对比就突出了W2NER模型的优势。

消融实验 

         在三个数据集上进行消融实验,结果如下所示:

         移除NNW关系时,所有数据集上的F1都有所下降,特别时CADEC数据集上,F1下降了4.2%,这是因为CADEC数据种包括不连续实体,如果没有NNW关系,discontinuedNER会被识别为连续span。

总结 

        作者将NER问题视为词与词之间的关系, 这样就能灵活的解决discontinueNER的问题,最后在discontinue的数据集上表现更为明显。不过感觉作者构建的网格有点复杂的亚子(不能用其他方式简化一下吗?),另外,作者也提到使用两个分类器进行分类,对模型的效果也有一定的提升,感觉可以借鉴一下。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/22321.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

OpenCV 入门教程:自适应阈值处理

OpenCV 入门教程:自适应阈值处理 导语一、自适应阈值处理二、示例应用2.1 图像二值化2.2 图像去噪 总结 导语 自适应阈值处理是图像处理中常用的技术之一,它能够根据图像的局部特征自动调整阈值,从而提高图像的处理效果。在 OpenCV 中&#…

LabVIEW-实现波形发生器

一、题目 用两种方法实现一种多类型信号波形发生器(至少包括:正弦波、三角波、方波等),可以调节信号频率、幅度、相位等参数,可以图形化显示信号波形。 需要给出产生信号波形的基本方法、程序设计基本方法以及程序实现…

SpringCloud(4) Eureka 如何主动下线服务节点

目录 1.直接停掉客户端服务2.发送HTTP请求1)调用DELETE接口2)调用状态变更接口 3.客户端主动通知注册中心下线1)代码示例2)补充3)测试 一共有三种从 Eureka 注册中心剔除服务的方式: 1.直接停掉客户端服务…

慢速减压控制技术在预防同步辐射光源和原位透射电镜氮化硅窗口膜真空中破裂的应用

摘要:氮化硅薄膜窗口广泛应用于同步辐射光源中的扫描透射软X射线显微镜和原位透射电镜,但氮化硅薄膜只有几百纳米的厚度,很容易因真空抽取初期的快速压差变化造成破裂。为此,本文提出了线性缓变压力控制解决方案,即控制…

物业小程序制作:提升管理效率与服务质量

随着物业管理的日益复杂,物业小程序成为了提高管理效率和提供优质服务的重要工具。物业小程序旨在提供高效的物业管理服务。通过物业小程序,物业公司能够方便地与业主进行信息交流、报修处理等操作。 物业小程序的好处 提高管理效率:物业小程…

七大排序算法——堆排序,通俗易懂的思路讲解与图解(完整Java代码)

文章目录 一、排序的概念排序的概念排序的稳定性七大排序算法 二、堆排序核心思想代码实现 三、性能分析四、七大排序算法 一、排序的概念 排序的概念 排序:所谓排序,就是使一串记录,按照其中的某个或某些关键字的大小,递增或递…

【微信小程序-uniapp】CustomPickerMul 自定义多选选择器组件

1. 效果图 2. 组件完整代码 <template><view class="custom-picker-mul"><view :class&#

2023世界人工智能大会,和鲸科技入选中国信通院《2023大模型和AIGC产业图谱》

近日&#xff0c;2023 世界人工智能大会&#xff08;WAIC&#xff09;“聚焦大模型时代 AIGC 新浪潮”论坛上&#xff0c;中国信息通信研究院&#xff08;以下简称“中国信通院”&#xff09;正式发布《2023 大模型和AIGC产业图谱》&#xff08;以下称“图谱”&#xff09;。和…

Win10 配置ADB安装2023.7.12版本

目录 1. ADB工具介绍2. ADB安装流程 参考 Win10 配置安装ADB教程总结20200514&#xff0c; fastboot刷机 1. ADB工具介绍 ADB ( Android Debug Bridge)&#xff0c;即Android 调试桥。是 Google 为开发人员提供的一种命令行工具&#xff0c;用于与安卓设备进行通信&#xff0…

简单线性回归评估指标+R Squared

使得每一个数据集尽可能的小 均方误差MSE&#xff1a;&#xff08;平方和取平均值&#xff09; 均方根误差RMSE&#xff1a;&#xff08;平方和取平均值开根号&#xff09;&#xff1a;平均误差值 平均绝对误差MAE&#xff1a;&#xff08;绝对值取平均&#xff09;&#xff1a…

mysql中desc的两种用法---1、查询表结构和降序

Mysql中DESC的两种用法 1、查询表结构 语法&#xff1a; desc table_name&#xff1b; PS&#xff1a;此处desc是describe的缩写&#xff0c;用法&#xff1a; desc 表名/查询语句 2、降序 语法&#xff1a; select * from 表 order by 字段 desc select ename,sal from e…

Spring Cloud 远程接口调用OpenFeign负载均衡实现原理详解

环境&#xff1a;Spring Cloud 2021.0.7 Spring Boot 2.7.12 配置依赖 maven依赖 <dependency><groupId>org.springframework.cloud</groupId><artifactId>spring-cloud-starter-openfeign</artifactId> </dependency> <dependency&…