corefBERT论文阅读

CorefBERT是清华大学团队发表的,继SpanBERT之后另一针对共指消解的BERT模型。共指消解任务对于文本理解、智能问答等其他NLP子任务起到至关重要的作用。

为了提高语言模型的共指推理能力,一个简单的解决方案是使用有监督的共指解析数据在bert等模型进行微调,但是小的数据集效果一般。

1.概述

corefBERT语言表示模型,可以更好的捕获和表示共引用信息。corefBERT引入一种新的预训练任务MRP(mention refenrece prediction),MRP利用重复出现的提及获得丰富的共指关系。MRP使用掩码方法遮盖一个或者多个提及,模型预测被遮盖住的整个提及。

        根据上图,词的损失由MRP提及参考预测和MLM遮盖语言建模损失两部分构成。上图中“Claire”用MASK替换,要求模型找到合适的候选词来填充它。

2.架构

        corefBERT使用深度双向transformer网络,包含两个训练任务:

(1)Mention Reference Prediction MRP:表述指代预测任务,使用MRP提升协同推理能力,MRP利用提及和使用MASK遮盖重复提及的一个,然后使用赋值的训练目标来预测被遮盖住的提及。

(2)Masked Language Modeing MLM:遮罩预测任务,用于学习一般的语言理解。使用完形填空的方法,根据上下文表征预测缺失的提及。

对于输入的文字序列,计算token和位置嵌入,送入深度双向网络中,获取上下文表示,计算预训练任务的损失。

损失包括两部分:提及预测损失和遮盖语言建模损失。

2.1提及参考遮罩Mention Referebce Masking

提及参考遮罩,遮盖序列中重复提及的标记,不是遮盖随机的token。

在实验过程中,使用词性标注方法,选出所有的名词;讲名词通过聚类分成不同的簇(共指簇),每个簇中包含相同名词的不同提及;每次从共指簇中选择一个表述进行遮盖,并使用上下文信息进行预测。the masked words for MLM and MRP are sampled on a ratio of 4:1. Similar to BERT, 15% of the tokens are sampled for both masking strategies mentioned above, where 80% of them are replaced with a special token [MASK], 10% of them are replaced with random tokens, and 10% of them are unchanged.

2.2copy-based Training objective 关于副本训练目标

通过拷贝文本中未MASK的token来预测缺失的token。通过赋值,可以显示的捕捉遮盖提及及引用之间的关系,从而获得上下文中的共引用信息。

对于输入序列,通过多层transformer得到嵌入向量H,词i可以被词j赋值得到的概率如下公式所示。

V是用于指示分词相似度的可学习参数。MRP任务采用基于词的遮盖,每次都是以词为单位,因此需要通过被遮盖词语的首尾,生成词i被同文本中词j赋值得到的概率。

MRP任务的损失函数为:

其中M为所有被遮盖的表述集合,

实验

训练中,选择批次大小256,学习率5*10-5。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/670458.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

嵌入式学习——C语言基础——day14

1. 共用体 1.1 定义 union 共用名 { 数据类型1 成员变量1; 数据类型2 成员变量2; 数据类型3 成员变量3; .. }; 1.2 共用体和结构体的区别 1. 结构体每个成员变量空间独立 2. 共用体每个成员变量空间共享 1.3 判断内存大小端 1. 内存大端…

大数据在互联网领域的“九大”应用

当下越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都呈现出大数据不断增长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,目前互联网大数据运用的九大领域&#xf…

4个可将 iPhone iPad iPod 修复至正常状态的 iOS 系统恢复软件

许多iOS用户对操作系统问题感到恐慌,例如iPhone卡在恢复模式、白屏死机、黑屏死机、iOS系统损坏、iTunes连接屏幕、iPhone数据丢失等。这些状态通常很无聊,因为您无法使用 iPhone 执行任何操作。 4个可将 iPhone iPad iPod 修复至正常状态的 iOS 系统恢复…

7-zip下载、安装

7-Zip 官方中文网站 (sparanoid.com) 7-Zip - 程序下载 (sparanoid.com)

直播预告|第一批 Vision Pro 开发者开始弃坑了吗? 本周六一起听听三位 XR 开发者的真实想法!

随着技术的进步,扩展现实(XR)行业正在迅速发展,成为连接现实与虚拟世界的桥梁。XR 技术,包括虚拟现实(VR)、增强现实(AR)和混合现实(MR)&#xff…

4. RedHat认证-进程管理

4. RedHat认证-进程管理 1.进程概念 进程就是正在运行中的程序或者命令 每一个进程都是运行的实体,都有自己的地址空间,并占有一定的资源空间 程序消耗的是磁盘资源、进程消耗的是内存和CPU资源 进程会占用四类资源(CPU 、内存、磁盘、网…

GEE错误——image.reduceRegion is not a function

简介 image.reduceRegion is not a function 这里的主要问题是我们进行地统计分析的时候,我们的作用对象必须是单景影像,而不是影像集合 错误"image.reduceRegion is not a function" 表示你正在尝试使用reduceRegion()函数来处理图像数据&…

电销卡与电话管家是什么

防封电销卡是啥? 也许有的人并不是很清晰,实际上防封电销卡也是电销业务流程运用避免封号的一种手机卡,它的作用实际上跟一般的用号码卡语音通话是类似的,唯独不一样的是防封电销卡是加入白名单的,让电销业务在开展的过…

使用C#和EF Core实现高效的SQL批量插入

在软件开发中,批量插入数据是一个常见的需求,特别是在数据迁移、初始化数据库或进行大量数据处理时。Entity Framework Core (EF Core) 是一个流行的.NET对象关系映射器(ORM),它简化了数据库操作,但在进行大…

C语言知识点补充——ASCLL码表

1、ASCLL码表 ASCII码表(American Standard Code for Information Interchange)是一种用于将字符编码为数字的标准。它定义了128个字符的编码方式,包括数字、字母、标点符号和控制字符等。每个字符都对应一个唯一的7位或8位二进制数 2、Ascl…

(Arxiv,2024)Mind the Modality Gap:通过跨模态对齐建立遥感视觉语言模型

文章目录 相关资料摘要引言相关工作对比语言图像预训练遥感域专用 CLIP 模型遥感中的多模态 CLIP 启发模型 方法模型算法输入阶段:输出阶段:步骤说明: 第一阶段:通过权重插值修补CLIP将遥感图像模态与自然图像和文本对齐 实验 相关…

【C++】继承 — 继承的引入、赋值切片详细讲解

前言 我们知道C语言是一门面向对象编程的语言,而面向对象编程有三大特性,它们分别是: 封装继承多态 目录 1. 继承的概念及定义1.1继承的概念1.2继承的定义格式1.3 继承的使用 2 基类和派生类对象赋值转换3 继承中的作用域3.1 派生类对象的存…