Domain Adaptation Vs. Prompt-Tuning:能否用域自适应解决大模型提示学习问题?

点击蓝字

e737031ca90c0a4554de0f0275a3fd9b.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

12d89e0aae86aff98733ee58e785179f.png

作者简介

李江梦,中国科学院软件研究所天基综合信息系统全国重点实验室助理研究员

论文简介

今天介绍的是被机器学习领域顶级学术会议ICLR 2024接收的论文:BayesPrompt: Prompting Large-Scale Pre-Trained Language Models on Few-shot Inference via Debiased Domain Abstraction,该论文从理论上证明了域自适应在解决提示学习问题上存在缺陷,因此提出了BayesPrompt来学习包含域判别信息的提示,以对抗域无关知识的干扰。理论上,BayesPrompt的泛化误差界比基准的Prompt-Tuning方法更紧致;实验上,BayesPrompt在基准测试中取得了最先进的性能。

论文地址:

https://arxiv.org/abs/2401.14166

代码地址:

https://github.com/FF2127/bayesprompt

Context

概述

作为一种基于大规模预训练语言模型(PLMs)的新颖有效的微调范式,Prompt-Tuning旨在缩小下游任务与预训练目标之间的差距。尽管Prompt-Tuning在各种任务中取得了持续的进展,但这种方法仍然长期存在一个缺陷,即Prompt-Tuning方法在泛化到特定的少样本模式时可能会失效。该论文从分布分析的视角揭示了这一现象背后的本质问题,即PLMs中包含的概念知识过多以及用于目标下游域的知识不完整,这两者共同导致了PLMs在通用知识嵌入空间中错误地定位到与目标域相对应的知识分布。为此,该论文探索以去偏的方式近似下游任务的完整目标域,然后抽象这些域以生成判别性提示,从而为PLMs提供消除歧义的指导。在这种直觉的引导下,该论文提出了一种简单而有效的方法,即BayesPrompt,来学习包含域判别信息的提示,以对抗域无关知识的干扰。BayesPrompt利用已知分布来近似目标域的去偏真实分布,并进一步从近似分布中均匀采样代表性特征,以生成对PLMs的提示。该论文从理论上证明了域自适应在解决提示学习问题上存在缺陷,但其与Prompt-Tuning之间仍然存在联系,并且进一步证明了BayesPrompt的理论优势,即其泛化误差界比基准的Prompt-Tuning方法更紧致。实验上,BayesPrompt在基准测试中取得了最先进的性能。

动机与分析

受益于海量的数据集、庞大可训练的模型参数以及设计良好的训练架构,PLMs在诸如机器翻译、文本生成、信息抽取等自然语言处理领域已经取得了显著的成功。然而,对于特定的下游任务,PLMs遇到了发展瓶颈,尤其是在少样本场景下未能达到研究人员的期望。这一问题的内在原因在于PLMs包含过多的概念知识。换句话说,PLMs包含的知识呈现固有的多义性。这导致与域无关的知识可能干扰对下游任务的推理,特别是对少样本数据来说。为了弥补这一不足,近年来的研究提出了设计良好的提示以指导PLMs,从而避免在下游任务中出现推理异常值。但手动构建这样的提示需要专业知识和大量的工作。为此,数据驱动的可训练提示应运而生,并在PLMs的下游推理中取得了显著的性能提升。然而,这种提示的学习范式仍然面临着长期存在的挑战,即来自下游域的训练样本中包含的有限且离散的语义信息无法较好地支持传统可训练提示获得足够的监督,使得生成的提示对PLMs的指导变得微不足道。特别是,这一挑战进一步加剧了PLMs在少样本场景下的性能下降。

ef2bca9f4ea9847bb8e3b5ba50eb6034.png

图1 分布视角

为了进一步理解PLMs在少样本场景下的缺陷背后的隐式和内在原因,该论文从分布视角重新审视了PLMs下游推理的操作原理。在图1(a) 展示的没有提示的传统推理范式中,一些样本可能包含直接干扰PLMs推理的信息。该论文将这一现象归因于这样一个事实:干扰样本同时属于PLMs知识嵌入空间中的多个域分布,而模型无法在没有包含域判别信息的提示的情况下确定所需要的域。因此,过多的概念知识虽然可以赋予PLMs理解通用概念的能力,但也可能干扰对特定任务的推理。对于图1(b)和(c) 中展示的具有可训练提示的推理范式,具有有限训练样本的下游域中所包含的信息可能会导致PLMs的知识歧义,而相应完整域中包含的信息可以有效地应对这一问题。该论文推测,有限的训练样本导致可训练的提示学习到目标域的有偏分布,该分布仅包含部分信息并与目标域的实际分布不一致,从而导致协变量偏移问题,因此仍然为PLMs提供有歧义指导。为此,该论文探索以去偏方式近似下游任务的完整训练域,然后通过域抽象生成判别性提示,从而为PLMs提供去歧义指导。

方法

c5e527fa02c7ba84033cf35a9360be9e.png

图2 模型框架图

具体来说,该论文提出了一种称为BayesPrompt的新方法,其首先利用已知分布来近似下游域的去偏真实分布,然后从近似分布中均匀采样代表性特征以生成对PLMs的提示。基于以上操作,BayesPrompt的行为可以被视为去偏域抽象。分布近似是通过使用Stein变分梯度下降(SVGD)实现的,这是一种通用的贝叶斯推断算法。由于在实践中观察到选择传统的高斯分布作为已知分布会退化对下游域分布的近似,因此构建了高斯混合模型(GMM)来拟合样本分布。然后,利用所得到的分布和样本表示来初始化SVGD算法的目标分布和粒子。通过SVGD的迭代更新得到一组新粒子集,其近似于目标分布。通过从近似的目标分布中采样获得包含域判别信息的提示,其可以减轻来自与域无关知识的干扰。

该论文以关系抽取(RE)任务为例详细描述了BayesPrompt的应用。首先,将训练样本𝑥𝑖输入到编码器中以获取其表示𝑖;然后,构建一个高斯混合模型来对表示分布进行建模,并得到输出 Pμ , Pσ  和 Pπ ,它们分别表示每个高斯分量的均值向量、协方差矩阵和权重。接着,采用SVGD来近似下游域的去偏真实分布。由 Pμ , Pσ  和 Pπ 确定的高斯混合分布作为 SVGD 算法的目标分布,训练样本的表示作为 SVGD 的初始粒子集e04059f0778ae298a1d64200abc65cab.png,M等于样本的数量。通过迭代更新,得到近似于下游域去偏真实分布的结果粒子集669b3a4504b7271842fefdbea7e8d8ba.png。通过从结果粒子集中均匀采样,得到潜在知识ω,其代表了一个能为PLMs提供去歧义指导的去偏域抽象。因此,对于为关系抽取任务构建的提示,使用潜在知识ω以及嵌入在关系标签中的语义知识来初始化可学习的连续tokens。为了将初始化的tokens与周围上下文充分关联,该论文采用了交叉熵损失进行进一步的优化:

33fbdc7700a1ff5f9f5e95f81f31b195.png

理论

回到最初的问题:能否用域自适应(Domain Adaptation)解决提示学习问题?

该论文提供了Prompt-Tuning与Domain Adaptation之间区别与联系的理论见解:

1. Prompt-Tuning与Domain Adaptation之间的区别

Domain Adaptation是指从源数据分布中学习一个在不同(但相关)目标数据分布上表现良好的模型。然而,这个目的与BayesPrompt的目的存在差距。BayesPrompt的方法旨在拟合少样本域的分布,但并没有对齐目标少样本域和PLMs域的分布。这一行为背后的直觉是,PLMs域的分布服从高斯分布,但少样本域的分布不是高斯分布,因此,任意地对齐分布以微调PLMs会降低其捕获判别性信息的能力。

2. Domain Adaptation中关于共享标签空间的理论假设是否适用于Prompt-Tuning?

在Prompt-Tuning场景中,下游域可以被视为目标域,PLMs域的特定子集可以被视为源域,即在PLMs域的特定子集与下游域之间进行域分布对齐,二者具有共享标签。然而,下游域可以由离散数据界定,而PLMs域的特定子集可能无法确定,因此无法直接利用传统的Domain Adaptation方法来实现BayesPrompt的目标。

那么,BayesPrompt在理论上是否有效?该论文定义X表示从下游数据集所对应分布P(X)中独立同分布采样出的随机变量,其通过预训练语言模型f(∙)获得潜在特征Z。在域分布的视角上,该论文假设存在两个域,用DPLM表示包含在PLM中的信息所对应的域,DDS表示下游数据集所对应的域。因此,在少样本推理上提示PLMs的任务可在形式上被转换为通过利用一个学得好的提示隐式地使下游域DDS适应PLMs域DPLM的特定子集ḊPLM。根据PLMs的传统推理设置,该论文假设PLMs域的特定子集ḊPLM和下游域DDS共享一个标签函数𝓛:Z→Y,Y表示相应的标签。此外,论文定义𝓗为表示一组预测函数的假设空间,且∀h∈𝓗,h∶Z→Y。因此,在PLMs域的特定子集ḊPLM所对应的分布2b234f95f3eecf2ca87938eac453deec.png和下游域DDS所对应的分布078c3cd64d075a8ecc583b555fffe968.png上,假设空间中的一个假设h与标签函数𝓛之间的差异可以分别由以下公式度量:

7508ccf42f8187123d0d4262acf6bd09.png

74afd748c10cbfdbe318934cc767371e.png


进而得出以下命题:

c1e228f07256484e505449032dde48d0.png

该论文将提示PLMs的操作原理视为隐式Domain Adaptation,因此所提出的方法遵循命题C.1中的原则。

由于目标下游域DDS(Z)的完整分布可以被分为多个组成分布,根据命题C.1中的三角不等式条件,这一行为理论上可以通过以下推论得到验证:

e0ed9b2d9eb29a2068b7ff0aeeb0aae1.png

根据推论C.2,通过在训练过程中连接候选分布,得到PLMs域的特定子集与下游域所对应的分布差异 abd2a0cb77054dfb5ea588c66367f972.png 的上界 9ac64988e05c931b6caa27e7888ab013.png + b699c7187621bff172317d5705f1feb8.png

下面通过进一步的理论验证证明与基准方法相比,BayesPrompt在PLMs的下游推理上获得了更紧致的分类误差上界:

2678f269b0ada351335a03c0191feeed.png

基于定理C.3可以得出:最小化所使用的损失函数可以隐式地减小分布差异,即 f386113cd90a6f4fdb8e5dcbc4cafcf4.png ,从而收紧𝐷𝐷𝑆上的分类误差上界。

实验

实验结果表明了BayesPrompt的有效性。在少样本学习设置中,该论文执行了1-shot、5-shot和16-shot的实验以评估BayesPrompt在低资源场景下的有效性。表1中报告了不同方法在不同基准数据集上的F1值和标准差。结果表明,平均而言,在基准数据集中,BayesPrompt比KnowPrompt高出了3.24%,比RetrievalRE高出了1.29%。

表1 少样本数据集设置下的实验结果

96a13f278fc6818feb50d4f87a520d48.png

表2 全量数据集设置下的实验结果

8ef8be9e2fcf8bb2c711e217ffbaf16b.png

在全量数据集设置下进行的实验进一步表明,与KnowPrompt相比,BayesPrompt的平均性能提升了0.4%,而与RetrievalRE相比提升了0.2%,这进一步突显了BayesPrompt的优势。

7ed00806f337ea9fea39c5fcf76e097b.png9ec9f6680fb54a53ca4a94ffb01b5037.png

图3 消融实验结果

对于去偏真实分布的近似,该论文综合考虑了高斯分布和高斯混合模型作为候选的已知分布。图3中左图的实验结果表明,采用高斯混合模型的方法实现了相对可观和有效的性能。右图展示了判别性提示的效果。具体而言,在TACRED数据集上的1-shot设置中,当移除判别性提示时,性能从22.5%下降到20.2%,这表明了判别性提示对少样本推理是有效的。

往期精彩文章推荐

eafbfdc86a8ffe16592dce82c59c0371.jpeg

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1700多位海内外讲者,举办了逾600场活动,超700万人次观看。

2707ef5d100ff32453c7a9fde1dd79f4.png

我知道你

在看

~

7e52c7131685b8f3b40636e1ef100523.gif

点击 阅读原文 查看更多!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/512275.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

006-CSS-常见问题汇总

常见问题汇总 1、伪元素与伪类2、偏门但好用的样式3、文字溢出三个点展示4、空白折叠问题5、文字的垂直居中6、 Vue项目中 在父组件中修改子组件样式7、BFC 概念7.1、兄弟元素外边距合并7.2、父子元素外边距塌陷 8、box-sizing8.1、box-sizing: border-box8.2、box-sizing: con…

机器人顶刊IJRR近期国人新作(2024)

一、IJRR简介 The International Journal of Robotics Research(IJRR)是机器人领域的高水平学术期刊,专注于发布关于机器人技术和相关领域的最新研究成果。IJRR创刊于1982年,是该领域的第一本学术刊物,2022-2023最新影…

el-dialog封装组件

父页面 <template><div><el-button type"primary" click"visible true">展示弹窗</el-button><!-- 弹窗组件 --><PlayVideo v-if"visible" :visible.syncvisible /></div> </template><sc…

[Redis]——Spring整合Redis(SpringDataRedis)

⭐准备工作&#xff1a; 确保Redis服务已启动idea开发环境 ⭐Redis整合步骤&#xff1a; 1.pom文件引入依赖 2.yml文件配置连接信息 3.修改Redis序列化方式 4.注入RedisTemplate 使用 小知识&#xff1a; Spring整合的Redis可以将Object对象自动序列化成字符串&#xff0…

探索API测试的奇妙世界:总结与思考!

本文主要是关于 API 测试的方法论探讨。 什么是 API 测试&#xff1f; API 测试是一种软件测试&#xff0c;涉及验证和确认应用程序接口 ( API ) 及其与其他服务组件的交互。测试重点关注软件架构的业务逻辑层&#xff0c;确保API按预期运行、数据准确交换、服务在各种条件下…

在 Centos 7 上编译 OpenJDK 23 及错误处理

在 Centos 7 上编译 OpenJDK 23 目的 希望在 JDK 源码中添加自己的中文注释&#xff0c;方便对学习过程进行记录。 其中遇到的错误主要有BootJDK的版本问题和字符编码问题&#xff0c;没有去调查哪些版本是兼容的&#xff0c;本文主要处理字符编码问题。 操作环境 组件版本…

RS编码的FPGA实现

RS编码&#xff0c;即Reed-solomon codes&#xff0c;是一类纠错能力很强的特殊的非二进制BCH码&#xff08;BCH码是一种有限域中的线性分组码&#xff0c;具有纠正多个随机错误的能力&#xff09;。对于任选正整数S可构造一个相应的码长为nqS-1的 q进制BCH码&#xff0c;而q作…

轻松玩转书生·浦语大模型趣味 Demo实战教程

大模型是什么&#xff1f; 大模型通常指的是机器学习或人工智能领域中参数数量巨大、拥有庞大计算能力和参数规模的模型。这些模型利用大量数据进行训练&#xff0c;并且拥有数十亿甚至数千亿个参数。大模型的出现和发展得益于增长的数据量、计算能力的提升以及算法优化等因素…

【QT】Qt Charts概述

目录 1 QtCharts模块 2 图表的主要组成部分 2.1 QChartView的功能 2.2 序列 2.3 坐标轴 2.4 图例 3 一个简单的QChart绘图程序 QtCharts是Qt提供的图表模块&#xff0c;在Qt5.7以前只有商业版才有Qt Charts&#xff0c;但是从Qt5.7开始&#xff0c;社区版本也包含了Qt C…

蓝海项目是真的好做吗?老隋分享的项目可不可靠?

在商业世界中&#xff0c;追求未充分开发的市场领域被视为一种创新的商业模式&#xff0c;这便是所谓的“蓝海战略”。随着社交媒体平台如抖音的兴起&#xff0c;许多创业者和企业开始关注并通过这些平台分享所谓的“蓝海项目”。其中&#xff0c;老隋作为抖音上的知名分享者&a…

MyBatis源码分析之基础支持层异常模块

(/≧▽≦)/~┴┴ 嗨~我叫小奥 ✨✨✨ &#x1f440;&#x1f440;&#x1f440; 个人博客&#xff1a;小奥的博客 &#x1f44d;&#x1f44d;&#x1f44d;&#xff1a;个人CSDN ⭐️⭐️⭐️&#xff1a;传送门 &#x1f379; 本人24应届生一枚&#xff0c;技术和水平有限&am…

c++的队列的用法

基本介绍 c的队列就是std::queue。 需要包含的头文件&#xff1a; #include<queue>queue就是先进先出队列 queue,就是队列&#xff0c;队列是一种容器适配器&#xff0c;专门设计用于在FIFO上下文中操作(先进先出)&#xff0c;其中将元素插入容器的一端并从另一端提…