多语言历史报纸广告事件抽取(ACL2023)

1、写作动机:

首先,获取大规模的、有注释的历史数据集是困难的,因为只有领域专家才能可靠地为它们打标签。其次,大多数现成的NLP模型是在现代语言文本上训练的,这使得它们在应用于历史语料库时效果显著降低。这对于研究较少的任务以及非英语语言尤为棘手。

2、主要贡献:

•构建了一个新的多语言数据集,包括英语、法语和荷兰语的“寻求自由事件”,由奴隶主发布的广告,报道了试图通过逃离奴役寻求自由的被奴役人,基于现有的英语语言“逃奴广告”数据集的标注。

•将从历史文本中提取事件的过程框架化为抽取式问答。即使有限的标注数据,通过利用现代语言的现有资源,这种形式化也能够取得出乎意料的好结果。

•证明了对于历史语言的跨语言低资源学习是非常具有挑战性的,实际上,将历史数据集机器翻译到目标语言通常是最有效的解决方案。

3、数据集:

奴隶主发布在报纸上的广告,内容是捉拿自行解放的奴隶。三种语言:英语、法语、荷兰语。

4、模型:

使用RoBERTa(英语),CamemBERT(法语),RobBERT(荷兰语),XLM-RoBERTa(多语言)模型,在大型抽取性问答数据集上进行了微调。

baseline :T0++(具有强大零样本能力的编码器-解码器transformer,用于在多种语言的历史文本中进行命名实体识别标记)、OneIE(一个英语事件抽取框架)

5、实验:

5.1实验设置:

零样本、少样本、半监督、跨语言训练方式。

5.2实验结果

零样本推理:

少样本推理:

半监督推理和跨语言推理:

6、局限性:

一种事件类型、一个语系、依赖翻译工具、受到OCR错误影响。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/341435.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySQL面试题 | 02.精选MySQL面试题

🤍 前端开发工程师(主业)、技术博主(副业)、已过CET6 🍨 阿珊和她的猫_CSDN个人主页 🕠 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 🍚 蓝桥云课签约作者、已在蓝桥云…

ARP协议详解

1、ARP协议的定义 地址解析协议(Address Resolution Protocol,ARP):ARP协议可以将IPv4地址(一种逻辑地址)转换为各种网络所需的硬件地址(一种物理地址)。换句话说,所谓的地址解析的目标就是发现逻辑地址与物理地址的映射关系。 ARP仅用于IPv…

NLP(十八):LLM 的推理优化技术纵览

原文:NLP(十八):LLM 的推理优化技术纵览 - 知乎 目录 收起 一、子图融合(subgraph fusion) 1.1 FasterTransformer by NVIDIA 1.2 DeepSpeed Inference by Microsoft 1.3 MLC LLM by TVM 二、模型压…

架构01 - 知识体系详解

架构,又称为知识体系,是指在特定领域或系统中的组织结构和设计原则。它涵盖了该领域或系统的核心概念、基础理论、方法技术以及实践经验等。架构的主要作用是提供一个全面且系统化的视角,帮助人们理解和应用相关知识,并指导系统的…

CSS进阶方法——复合选择器、元素显示、背景设置

1、复合选择器 复合选择器是建立在基础选择器之上,对基础选择器进行组合形成的。 复合选择器可以更准确、更高效的选择目标元素(标签)复合选择器是由两个或多个基础选择器,通过不同的方式组合而成的常用的复合选择器包括&#xf…

Unity Meta Quest 一体机开发(十三):【手势追踪】自定义交互事件 EventWrapper

文章目录 📕教程说明📕交互事件概述📕自定义交互逻辑⭐方法一:Inspector 面板赋值⭐方法二:纯代码处理 此教程相关的详细教案,文档,思维导图和工程文件会放入 Spatial XR 社区。这是一个高质量…

MT8766安卓核心板/开发板_MTK联发科4G安卓手机主板方案定制开发

MT8766采用台积电 12 nm FinFET 制程工艺,4*A53架构,Android 9.0操作系统,搭载2.0GHz 的 Arm NEON 引擎。提供了支持最新 OpenOS 及其要求苛刻的应用程序所需的处理能力,专为具有全球蜂窝连接的高移动性和功能强大的平板设备而设计…

使用递归将list转换成tree

在产品研发时遇到这样一个问题,对于省市区县这类三级联动的数据,前端插件需要一次把数据全部返回,单纯的使用接口查询字节的没办法满足要求。 如果一次把数据全部返回,前端使用起来很麻烦需要一条一条的进行查找。 常规的使用方…

jmeter分布式服务搭建

目录 一、环境准备 二、 安装包下载 三 、安装jdk 四 、控制机安装 4.1 解压压缩包 4.2 修改 bin/jmeter.properties 4.3 修改 bin/system.properties 五、执行机安装 5.1 解压安装包 5.2 修改 bin/jmeter.properties 5.3 修改 bin/system.properties 5.4 启动执行机 …

Discourse 未活动的用户是怎么处理的

Discourse 目前有一个参数为 clean up inactive users after days 来控制不活跃或者未激活的用户。 如果你的用户满足下面的条件的话,系统将会在到期后对用户进行清理和删除 从未在 Discourse 站点上发布任何内容 如果你在 Discourse 站点上发布了内容&#xff0c…

uⅤ打印-小理光上海RYPC后台运动系统

uⅤ打印-小理光上海RYPC后台运动系统

php多小区智慧物业管理系统源码带文字安装教程

多小区智慧物业管理系统源码带文字安装教程 运行环境 服务器宝塔面板 PHP 7.0 Mysql 5.5及以上版本 Linux Centos7以上 统计分析以小区为单位,统计如下数据:小区总栋数、小区总户数、小区总人数、 小区租户数量、小区每月收费金额统计、小区车位统计、小…