Re54:读论文 How Context Affects Language Models‘ Factual Predictions

诸神缄默不语-个人CSDN博文目录
诸神缄默不语的论文阅读笔记和分类

论文名称:How Context Affects Language Models’ Factual Predictions

ArXiv网址:https://arxiv.org/abs/2005.04611

2020年AKBC论文,作者来自脸书和UCL。

本文主要关注zero-shot cloze-style question answering任务,使用LM+无监督检索,考察需要检索出什么样的上下文。

用DrQA检索器(TF-IDF检索维基百科)检索的结果,LM在QA上的指标就能和无监督场景相媲美。

open-domain QA的传统做法是retriever+reader(生成回答)

文章目录

  • 1. 数据集
  • 2. LM
  • 3. baseline
  • 4. 上下文设置
  • 5. 主实验结果

1. 数据集

在这里插入图片描述

2. LM

BERT
RoBERTa(削减了LAMA数据集以使其全部在RoBERTa的词表中)

3. baseline

DrQA:TF-IDF检索维基百科→抽取答案
将完形填空格式问题改成QA对:"X was born in [Mask]" to "Where was X born?"

4. 上下文设置

在BERT中用不同的segment embeddings区分问题(0)和上下文(1),中间再加个[SEP]
RoBERTa用EOS
后面的实验证明这个操作能提升效果。这可能是因为利用了BERT的NSP任务。

限长512

  1. oracle上下文:Wikipedia snippet

Wikipedia Snippet 是从 Wikipedia 页面上提取的一小段文本,通常用于快速展示相关条目的主要内容或概述。这种摘要可以帮助用户快速了解某个主题的核心信息,无需阅读整个条目。在搜索引擎结果中,Wikipedia Snippet 常常出现,以便用户在点击进入 Wikipedia 网站之前,就能获得关键信息。例如,如果你搜索一个历史人物、科学概念或者任何其他主题,搜索引擎可能会显示来自 Wikipedia 的简短摘要,这就是所谓的 “Snippet”。

  1. 相关上下文:检索或生成
  2. 对抗上下文:信息不足版(从同关系别的问题的oracle上下文中随机抽取)

5. 主实验结果

在这里插入图片描述

在这里插入图片描述
a:结果token经常不出现在检索上下文中
b:结果token是否出现在上下文中,如何影响模型预测结果。确实影响

每种上下文相比无上下文的改变量,是否加separation的效果对比:
在这里插入图片描述

证明NSP起作用:
不同方案在不同数据集上的NSP率
在这里插入图片描述

LM概率的变化与NSP概率的关系
在这里插入图片描述
↑这个图的纵坐标差别这么大还画成这样,感觉不好。虽然我知道是为了表现趋势相似,但是纵坐标完全不在一个量级上啊!

案例分析:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/216261.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

井盖位移传感器怎么监测井盖安全

井盖在城市基础设施建设中扮演着不可或缺的角色,虽然看似并不起眼但确实是城市规划中一个重要的组成部分。在城市规划建设之初都需要首先考虑排水系统的设计,而井盖作为排水系统的一个重要组成部分,一旦出现问题便会造成交通中断或者环境受影…

图像中的注意力机制详解(SEBlock | ECABlock | CBAM)

图像中的注意力机制详解 一、 前言二、SENet——通道注意力机制1. 论文介绍SEBlock结构图:摘要重点:SEBlock创新点: 2. 算法解读3. Pytorch代码实现4. 个人理解 三、ECANet——通道注意力机制(一维卷积替换SENet中的MLP&#xff0…

判断序列Series中的值是否都不一样 PandasSeries中的方法:is_unique()

【小白从小学Python、C、Java】 【计算机等考500强证书考研】 【Python-数据分析】 判断序列Series中的值是否都不一样 PandasSeries中的方法: is_unique() 选择题 请问下列程序运行的的结果是: import pandas as pd s1 pd.Series([1,2,3]) print("…

NX二次开发UF_CURVE_add_faces_ocf_data 函数介绍

文章作者:里海 来源网站:https://blog.csdn.net/WangPaiFeiXingYuan UF_CURVE_add_faces_ocf_data Defined in: uf_curve.h int UF_CURVE_add_faces_ocf_data(tag_t face_tag, UF_CURVE_ocf_data_p_t uf_offset_data ) overview 概述 Add a face col…

简单使用YOLOv5自己训练模型

使用YOLOv5自己训练模型 前言:本文基于我的另一篇文章作为基础,文章戳这里,主要还是实操为主,让大家能快速上手使用。 数据集构建 1.准备工作 数据收集: 图片类型数据 视频类型数据(使用opencv进行视频…

报表生成器Stimulsoft用户手册:具有交叉基元的报告

Stimulsoft Reports 是一款报告编写器,主要用于在桌面和Web上从头开始创建任何复杂的报告。可以在大多数平台上轻松实现部署,如ASP.NET, WinForms, .NET Core, JavaScript, WPF, Angular, Blazor, PHP, Java等,在你的应用程序中嵌入报告设计器…

MySQL介绍及安装

MySQL介绍及安装 一、MySQL概述 1、关系型数据库与非关系型数据库 RDBMS(relational database management system),既关系型数据库管理系统。 简单来说,关系型数据库,是指采用了二维表格来组织数据的数据库。 扩展…

python cv2.imread()和Image.open()的区别和联系

文章目录 1. cv2.imread()1.1 cv2.imread参数说明1.2 注意事项 2. Image.open()3. cv2.imread()与Image.open()相互转化3.1 cv2.imread()转成Image.open():Image.fromarray()3.2 Image.open()转成cv2.imread():np.array() 1. cv2.imread() cv2.imread()…

NX二次开发UF_CURVE_ask_curve_struct_data 函数介绍

文章作者:里海 来源网站:https://blog.csdn.net/WangPaiFeiXingYuan UF_CURVE_ask_curve_struct_data Defined in: uf_curve.h int UF_CURVE_ask_curve_struct_data(UF_CURVE_struct_p_t curve_struct, int * type, double * * curve_data ) overview…

数据链路层-以太网协议

目录 数据链路层的作用认识以太网以太网帧格式认识MAC地址对比理解MAC地址和IP地址认识MTUMTU对UDP协议的影响MTU对TCP协议的影响数据跨网络传输的过程ARP协议ARP协议作用ARP数据报的格式ARP协议的工作流程 数据链路层的作用 我们知道数据能在网络中从一台主机发送到另一台主机…

从0开始学习JavaScript--深入了解JavaScript框架

JavaScript框架在现代Web开发中扮演着关键角色,为开发者提供了丰富的工具和抽象层,使得构建复杂的、高性能的Web应用变得更加容易。本文将深入探讨JavaScript框架的核心概念、常见框架的特点以及它们在实际应用中的使用。 JavaScript框架的作用 JavaSc…

ONNX实践系列-修改yolov5-seg的proto分支输出shape

一、目标 本文主要介绍要将原始yolov5分割的输出掩膜从[b,c,h,.w]修改为[b, h, w, c] 原来的: 目标的: 代码如下: Descripttion: version: @Company: WT-XM Author: yang jinyi Date: 2023-09-08 11:26:28 LastEditors: yang jinyi LastEditTime: 2023-09-08 11:48:01 …