KU Leuven TU Berlin 推出“RobBERT”,一款荷兰索塔 BERT

荷兰语是大约24万人的第一语言,也是近5万人的第二语言,是继英语和德语之后第三大日耳曼语言。来自比利时鲁汶大学和柏林工业大学的一组研究人员最近推出了基于荷兰RoBERTa的语言模型RobBERT。

谷歌的BERT(来自Transformers的B idirectional Encoder R表示)于2019年首次推出,是一种强大而流行的语言表示模型,旨在预训练来自未标记文本的深度双向表示。研究表明,在单一语言上训练的BERT模型明显优于多语言版本。

与以前使用早期的BERT实现来训练荷兰语BERT的方法不同,新研究使用了RoBERTa,这是去年夏天由Facebook AI和华盛顿大学西雅图分校的研究人员推出的BERT的改进版本。RobBERT 经过了来自 OSCAR 语料库荷兰部分的 6 亿字总计 6 GB 文本的预训练。

2023-08-14T02:46:37.png

与SOTA相比,RobBERT在几个下游任务上进行了微调的结果

研究人员在不同环境中评估了RobBERT在多个下游任务上的表现,比较了其在荷兰书评数据集(DBRD)的情感分析中的表现,以及荷兰语特有的任务,将Europarl话语语料库中的“die”与“dat(that)”区分开来。结果表明,RobBERT在情感分析方面优于现有的基于荷兰BERT的模型,如BERTje,并在“Die/Dat”消歧任务上取得了最先进的结果。

本文确定了这项研究的可能改进和未来方向,例如训练类似的模型,改变训练数据格式和预训练任务,如句子顺序预测,以及将RobBERT应用于其他荷兰语任务。

预训练的RobBERT模型可以与Hugging Face的变压器和Facebook的Fairseq工具包一起使用。顺便说一下,RobBERT标志源于这样一个事实,即“rob”这个词在荷兰语中也是“印章”的意思。

论文RobBERT:基于荷兰RoBERTa的语言模型在arXiv上发表。模型和代码可在 GitHub 上找到。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/72623.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java请求SAP系统,发起soap的xml报文,实体类转换,idea自动生成教程

1、将接口的网页地址,右键保存,然后修改文件后缀为wsdl文件 2、idea全局搜索 wsdl,找到自动转换javabean插件: 3、点击后,选择下载改完后缀的文件: 4、将无用的class文件删除掉 5、请求sap的地址为&#…

MySQL语法及常用数据类型

一、SQL语言概述 对数据库进行查询和修改操作的语言叫做SQL。SQL的含义就是结构化查询语言(Structured Query Language)。SQL包含以下4个部分: 1、数据定义语言(DDL):DROP、CREATE、ALTER等语句&#xff…

Mysql复制类型、主从复制集群种类、主从复制原理

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 主从复制原理主从复制原理图一、概述二、为什么要读写分离?三、mysql支持的复制类型1、基于语句的复制statement:2、基于行的复制row&#x…

智能合约 -- 常规漏洞分析 + 实例

1.重入攻击 漏洞分析 攻击者利用合约漏洞,通过fallback()或者receive()函数进行函数递归进行持续取钱。 刚才试了一下可以递归10次,貌似就结束了(version: 0.8.20)。 直接看代码: 银行合约:有存钱、取钱、查看账户余额等函数。攻击合约:…

收集的一些比较好的git网址

1、民间故事 https://github.com/folkstory/lingqiu/blob/master/%E4%BC%A0%E8%AF%B4%E9%83%A8%E5%88%86/%E4%BA%BA%E7%89%A9%E4%BC%A0%E8%AF%B4/%E2%80%9C%E6%B5%B7%E5%BA%95%E6%8D%9E%E6%9C%88%E2%80%9D%E7%9A%84%E6%AD%A6%E4%B8%BE.md 2、童话故事 https://gutenberg.org/c…

前端开发,怎么解决浏览器兼容性问题? - 易智编译EaseEditing

解决浏览器兼容性问题是前端开发中常见的挑战之一。不同的浏览器可能对网页元素的渲染和功能支持有所不同,因此需要采取一些策略来确保您的网页在不同浏览器上都能正常运行和呈现。以下是一些解决浏览器兼容性问题的方法和策略: 使用CSS Reset&#xff…

字节跳动测试岗面试挂在2面,复盘后,我总结了失败原因,决定再战一次...

先说下我基本情况,本科不是计算机专业,现在是学通信,然后做图像处理,可能面试官看我不是科班出身没有问太多计算机相关的问题,因为第一次找工作,字节的游戏专场又是最早开始的,就投递了&#xf…

后端返回图片资源错误404,前端使用默认图片

后端返回的图片资源可能会因为各种原因(后台误删,地址更改未及时更新,损毁)出现无法展示的情况,比如这种报错 就会导致图片资源错误,页面出现这种情况 用户体验很不好,为了改善这种情况&#xf…

流弊的docker

docker就是隔离式运行软件组(多个软件),docker分为dockerfile文件,images 镜像,容器,本地仓库,远程仓库。 构建dockerFile文件,可以获得images镜像 运行镜像获得容器 || 容器提交获得…

Spring Bean的生命周期总结(包含面试题)

目录 一、Bean的初始化过程 1. 加载Spring Bean 2. 解析Bean的定义 3. Bean属性定义 4. BeanFactoryPostProcessor 扩展接口 5. 实例化Bean对象 6. Aware感知 7. 初始化方法 8. 后置处理 9. destroy 销毁 二、Bean的单例与多例模式 2.1 单例模式(Sin…

小航助学GESP_C++一级模拟测试卷第3套(含题库答题软件账号)

需要在线模拟训练的题库账号请点击 小航助学编程在线模拟试卷系统(含题库答题软件账号)_程序猿下山的博客-CSDN博客 需要在线模拟训练的题库账号请点击 小航助学编程在线模拟试卷系统(含题库答题软件账号)_程序猿下山的博客-CSD…

05-微信小程序常用组件-表单组件

05-微信小程序常用组件-表单组件 文章目录 表单组件button 按钮案例代码 form 表单案例代码 image 图片支持长按识别的码案例代码 微信小程序包含了六大组件: 视图容器、 基础内容、 导航、 表单、 互动和 导航。这些组件可以通过WXML和WXSS进行布局和样式设…