论文浅尝 | 用于开放式文本生成的事实增强语言模型

7d4a37b7c43eaaa2ec87a60452c7711b.png

笔记整理:李煜,东南大学硕士,研究方向为知识图谱

链接:https://proceedings.neurips.cc/paper_files/paper/2022/hash/df438caa36714f69277daa92d608dd63-Abstract-Conference.html

1. 动机

生成式语言模型(例如 GPT-3)仅经过训练来对子词标记之间的统计相关性进行建模,并且生成事实上准确的文本的能力有限。因此,人们越来越担心关于大规模预训练 LM 的非事实生成。与具有事实信息的大量在线文本相比,结构化知识图仅编码有限数量的知识,因为它们需要昂贵的人工注释来进行高质量的构建。探索了一种无(信息检索) IR 的方法,通过对事实丰富的纯文本语料库的持续训练来增强 LM 的固有事实性。文章探索了一种无 IR 的方法,通过对事实丰富的纯文本语料库的持续训练来增强 LM 的固有事实性。

2. 主要贡献

文章设计了 FACTUALITYPROMPTS 测试集和指标来衡量 LM 生成的真实性。在此基础上,文章研究了参数大小范围从 126M 到 530B 的 LM 的事实准确性。作者发现较大的语言模型比较小的语言模型的回答更符合事实,尽管之前的研究表明较大的语言模型在误解方面可能不太真实。此外,开放式文本生成中流行的采样算法(例如 top-p)可能会由于每个采样步骤引入的“均匀随机性”而损害事实性。因此提出了事实核采样算法,该算法采取动态的适应随机性,以提高生成的真实性,同时保持质量。此外,文章分析了标准训练方法在从事实文本语料库(例如维基百科)中学习实体之间的正确关联方面的低效率。所以作者提出了一种事实增强训练方法,使用 TOPICPREFIX 更好地了解事实和完成句子作为训练目标,可以大大减少事实错误。

e71b8df707758b9b1676173aff14ba32.png

图1: 具有贪婪解码和核采样 p = 0.9 的 530B LM 的知识生成示例,以及具有事实核采样的事实增强型 530B LM 的生成。红色代表非事实,绿色代表事实,删除线代表重复。当 LM 生成 <|endoftext|> 或达到最大长度时,它们将停止生成

总之,文章建立了一个基准来衡量和分析开放式文本生成任务中的事实性。文章提出事实核采样,可以在保持质量和多样性的同时提高生成的真实性。并结合“句子完成损失”和 “TOPICPREFIX ”预处理,以通过持续训练提高事实性。

文章发现直接在事实文本数据上继续训练LM并不能保证事实准确性的提高。所以文章提出进行事实增强培训,以解决该基线的潜在低效率问题。方法包括 i) 添加一个 TOPICPREFIX 以提高训练期间对事实的认识,以及 ii) 一个句子完成任务作为持续 LM 训练的新目标。

3. 实验方法

文章的目标是自动测量和评估用于开放式文本生成的大规模预训练语言模型 (LM) 的真实性。事实性是指与 NLP 中提供的真实知识源保持一致。评估开放式文本生成的真实性的最大挑战与从无数的世界知识中定位真实知识有关。由于缺乏生成的真实参考资料,评估开放式文本生成可能具有挑战性。在本研究中,作者的真实知识源的范围设置为维基百科,因为这有助于简化评估设置。

文章的评估框架由以下阶段组成(如图2所示)。在第 1 阶段,LM 根据提供的测试提示生成文本。在第二阶段,首先识别值得检查的生成文本,这是指具有需要事实性评估的内容。此步骤是必要的,因为开放式文本生成可能会生成不包含个人观点或闲聊式文本等事实的文本(例如,“我喜欢吃苹果!”)。然后,对值得检查的延续进行事实验证所需的相关事实知识。最后计算事实性和质量指标。

22df9c5672a025bcbe99d17db6b4e741.png

图2:整体评估框架

提示和评估:

文章设计了一个测试提示test prompts,它具有toxic和nontoxic提示来评估 LM 生成的内容。由事实提示和非事实提示组成,能够研究提示的真实性对于LM生成内容的影响。

准备相关的基本事实知识:

文档级别的真实知识,用wiki百科的文档,句子级别的真实知识,采用两种方法,一种是采用文本和维基百科句子视为候选池C,将生成的文本视为查询 q,通过获取 q 和 C 的 TF-IDF 向量表示并选择与 q 具有最高余弦相似度的 ci 来检索一个真实句子,另一种是采用SentenceTransformer获取 q 和 C 的上下文表示并选择具有最高余弦相似度的 cj 来检索。

评估指标:

采用基于命名实体 (NE) 的度量和基于文本蕴含的度量,每个指标都反映了事实的不同方面:

幻觉 NE 错误:如果语言模型生成的NE 未出现在真实知识源中,它就会产生幻觉(造成事实错误),基于 NE 的指标定义为:NEER = |HALLUNE| / |ALLNE|其中 ALLNE 是 LM 生成中检测到的所有 NE 的集合,HALLUNE 是 NEAll 的子集,它没有出现在真实的维基百科文档中。需要注意的是,评估 NEER 需要文档级的基本事实。

蕴含比例:基于蕴含的指标基于以下基本原理:事实生成将由真实知识所蕴含。

生成质量:流畅性,多样性,减少重复。

与人类判断的相关性:实验表明人类对事实的判断与所提出的自动度量 NEER 和 EntailR 之间存在很强的相关性。

4. 评估结果

文章从三个方面对 LM 进行事实分析:i)模型大小,ii)提示类型和 iii)解码算法。

22f11e8dc1ecccff0f24a5cca846fb7f.png

图3: 具有从 12M 到 530B 不同参数大小的 LM 的真实性。NEER 指命名实体错误,EntailR 指蕴涵比,Div.指的是不同的 4-gram,Rep. 指的是重复

  • 模型大小:生成的准确性确实随着模型规模的增加而提高,

  • 提示类型:事实提示和非事实提示都可以导致非事实生成,尽管事实提示总是导致较少的非事实生成。随着模型大小的增加,事实提示和非事实提示之间的性能差距变得更加突出。

  • 解码算法:文章介绍了两种解码算法,贪婪解码和核采样,核采样top-p解决了贪婪解码算法的退化问题(例如重复),尽管top-p解码获得了更高的生成多样性和更少的重复,但在事实性方面,top-p解码的性能不如贪婪解码。因为 top-p 可以被视为添加“随机性”以鼓励多样性,从而可能导致事实错误。因为它选择概率最高的单词的方式最大限度地减少了随机性,并最大限度地利用了 LM 的参数知识。然而,贪婪解码牺牲了生成多样性和质量。

  • 错误类型:两种典型错误类型,分别是命名实体混合,捏造事实。

5. 事实核采样

文章在实验结束以后提出了一种新的采样算法,与现有的解码算法相比,它可以在生成质量和真实性之间实现更好的权衡。

文章假设当采样的随机性用于生成句子的后半部分时,比用于生成句子的开头时,对事实性的危害更大。句子开头没有前面的文本,因此只要符合语法和上下文,LM 就可以随意地生成任何内容。然而,随着迭代的进行,前提变得更加确定,并且更少的单词选择可以使句子成为事实。因此,我们引入了事实核采样算法。

采样算法即在每个句子的生成过程中动态调整“核”p,随着时间的推移减少“随机性”。并且在每句话的开头重置p,减轻了重复的问题并提高了多样性。并且设置了最低限度ω。

52f580163ddcec19c814fd828e97e48a.png

  • λ -decay: 在每个生成步骤中用衰减因子逐渐衰减 p 值,以随着时间的推移减少“随机性”。

  • p-reset:在生成过程中每个新句子的开头将 p 值重置为默认值(我们通过检查上一步是否生成了句号来识别新句子的开头)。p-reset 减轻了重复问题并提高了多样性指标,而不会损失太多事实性指标。

  • ω-bound:p 值可能会变得太小而无法等同于贪婪解码并损害多样性。为了克服这个问题,文章引入了下界ω限制 p 值可以衰减的程度。

文章通过消融研究来展示每个部分的重要性。

54a777d8e5114ca609a099ea81dd3009.png

6db1f7e0cc3b81df3bcf2f32e250c89b.png

图4: 核采样(蓝线)和事实核采样(橙线)之间的比较。x 轴被命名为实体误差 NEER。y 轴分别是(a)和(b)中的多样性和重复性。重复次数越低越好。显然,事实核心抽样在事实性和多样性/重复性之间具有更好的权衡

添加 λ-decay 有助于提高 top-p 0.9 事实性结果,例如,当衰减率 λ= 0.5 时,NEER 下降 12.5%,EntailR 增益 10.1%。然而,这会影响多样性和重复性,使其变得类似于贪婪解码。p-reset 减轻了重复问题并提高了多样性指标,而不会损失太多事实性指标。λ= 0.5 选项的效果更为显着,它在多样性指标上实现了 0.26 的增益,而事实分数的变化可以忽略不计。通过添加ω-bound,与贪婪解码相比,生成质量有了很大的提高;当 p=0.9, λ=0.9, ω=0.3 时,在多样性方面实现了x11的改进,在重复方面比贪婪实现了x4.6 的改进。尽管这种事实核采样在多样性方面仍然低于 top-p 0.9,但这是一个可以接受的权衡,可以提高 LM 对于事实敏感的开放式生成任务的事实性。

6. 事实强化训练

句子可以包含代词(例如,她、他、它),使得这些句子实际上独立时毫无用处,作为补救措施,作者建议在事实文档中的句子前面添加 TOPICPREFIX,使每个句子都充当独立的事实。文章中将维基百科文档名称作为 TOPICPREFIX。

句子完成损失:一种通过更多地关注句子的末尾部分(通常存在关键细节)来提高语言模型生成的事实准确性的方法。通过引入一种称为句子完成损失的新损失函数来实现此目的。在句子中建立一个枢轴点“t”,该点之前的所有子词预测损失在模型的优化过程中都会被赋予较小的权重(通过零掩蔽实现)。这将模型的注意力转移到确保对枢轴点之后出现的子词进行更准确的预测。理由是句子的后半部分通常对事实性更为关键,这种方法可以帮助确保生成更准确和上下文相关的信息。比如“Samuel Witwer’s father is a Lutheran minister”,找到的枢纽点是is,后半部分明显更为重要。

对于训练阶段,为每个句子确定合适的枢轴点至关重要,而在推理阶段不需要枢轴点,从而保证了模型的可用性和效率。

在文章中探索了三种策略(从简单到复杂)来确定枢轴 t:

f598b9afe458cd0a1bdba2351898e334.png

文章实验表明:最简单的 SCHALF 与复杂的 SCROOT(例如 SCROOT)性能相当,因此建议未来的工作选择 SCHALF 策略。

7. 总结

文章建立了一个基准来衡量和分析开放式文本生成任务中的事实性。同时提出了事实核心采样算法,可以提高推理时生成事实知识的准确性,并结合句子完成损失和 TOPICPREFIX 预处理,通过增强知识进行强化训练来提高事实性。实验结果表明该方法可以有效地提高生成知识的事实性,同时也揭示了该方法在多样性和事实性之间存在的权衡。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

058757fdaa5b2c7cdb5212f5d2cf3d23.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/175868.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【机器学习基础】机器学习的模型评估(评估方法及性能度量原理及主要公式)

&#x1f680;个人主页&#xff1a;为梦而生~ 关注我一起学习吧&#xff01; &#x1f4a1;专栏&#xff1a;机器学习 欢迎订阅&#xff01;后面的内容会越来越有意思~ &#x1f4a1;往期推荐&#xff1a; 【机器学习基础】机器学习入门&#xff08;1&#xff09; 【机器学习基…

一文说清楚Openai的这波更新内容,大地震 一大波套壳公司倒闭

前几天Openai召开了首届的开发者大会&#xff0c;45分钟的会议&#xff0c;让千万用户感到兴奋&#xff0c;但是让万千的套壳的创业公司&#xff0c;却感觉如坐针毡。这次发布会发布了哪些功能&#xff1f;为什么会导致这种情况的发生&#xff1f;让我们接着往下讲 API升级且降…

Spring面试题:(七)Spring AOP思想及实现

AOP思想的概念 AOP的实现&#xff1a;动态代理技术 通过spring容器获取目标对象和增强对象&#xff0c;通过动态代理生产代理对象&#xff0c;在目标对象的目标方法执行增强方法&#xff0c;返回生成代理对象给spring容器&#xff0c;在获取bean时则获取代理对象。 JDK代理和…

虹科示波器 | 汽车免拆检修 | 2014款保时捷卡宴车行驶中发动机偶尔自动熄火

一、故障现象 一辆2014款保时捷卡宴车&#xff0c;搭载4.8L自然吸气发动机&#xff0c;累计行驶里程约为10.3万km。车主反映&#xff0c;行驶中发动机偶尔自动熄火&#xff0c;尤其在减速至停车的过程中故障容易出现。 二、故障诊断 接车后路试&#xff0c;确认故障现象与车主所…

《深入浅出.NET框架设计与实现》阅读笔记(四)

静态文件系统 通过ASP.NET Core 提供的静态文件模块和静态文件中间件&#xff0c;可以轻松的让应用程序拥有访问静态文件的功能&#xff0c;同时可以基于IFileProvider对象来自定义文件系统&#xff0c;如基于Redis做扩展文件系统 启动静态文件服务 在Program.cs 类中&#x…

image J 对Western blot 条带进行灰度分析 量化分析

用ImageJ对条带进行定量分析 | Public Library of Bioinformatics (plob.org) 3分钟Get&#xff01;大牛教你用 image J 对Western blot 条带进行灰度分析&#xff01; - 哔哩哔哩 (bilibili.com) 科研人员做的western blot实验一般需要对其结果扫描后进行灰度分析&#xff0…

34 mysql limit 的实现

前言 这里来看一下 我们常见的 mysql 分页的 limit 的相的处理 这个问题的主要是来自于 之前有一个需要处理 大数据量的数据表的信息, 将数据转移到 es 中 然后就是用了最简单的 “select * from tz_test limit $pageOffset, $pageSize ” 来分页处理 但是由于 数据表的数…

人工智能基础_机器学习033_多项式回归升维_多项式回归代码实现_非线性数据预测_升维后的数据对非线性数据预测---人工智能工作笔记0073

然后我们来实际的操作一下看看,多项式升维的作用,其实就是为了,来对,非线性的数据进行拟合. 我们直接看代码 import numpy as np import matplotlib.pyplot as plt from sklearn.linear_model import LinearRegression X=np.linspace(-1,11,num=100) 从-1到11中获取100个数…

计算机视觉基础(6)——光流估计

前言 本章我们来学习一下图像处理基础中的运动估计。主要内容包括运动场估计和光流估计两个部分。在运动场估计中&#xff0c;我们将学习到运动场、光流、光流和运动场的区别&#xff1b;在光流估计中&#xff0c;我们将学习到光流估计任务、孔径问题&#xff0c;以及光流估计两…

Jenkins Docker Swarm插件 配置的坑

配置 Docker Host URI 注意&#xff0c;这里要用 http://&#xff01;&#xff01;&#xff01;如果按照提示里用了 tcp:// 则会报错&#xff0c;异常信息如下&#xff1a; 2023-11-13 16:28:42.6830000 [id34] WARNING o.e.j.s.h.ContextHandler$Context#log: Error while s…

美国站群服务器IP如何设置分配?

​  在配置美国站群服务器时&#xff0c;IP的分配是一个重要的步骤。下面将介绍一些关于美国站群服务器IP分配的相关知识。 独享IP和虚拟IP 在租用美国站群服务器之前&#xff0c;我们需要了解提供的IP是独享的还是虚拟的。独享IP指每个网站都有独立的IP地址&#xff0c;而虚…

Android Studio的代码笔记--JSON解析学习2

JSON学习2 生成JSON解析JSON java解析json字符串和合成json字符串 json字符串 {"type":"getConfig","ip":"192.168.1.100"}使用 String ss groupJS("Config","192.168.1.100"); splitJS(ss);回显 I/lxh: group…