AlignSum:数据金字塔与层级微调,提升文本摘要模型性能 | EMNLP24

news/2025/1/11 23:58:36/文章来源:https://www.cnblogs.com/VincentLee/p/18545379

来源:晓飞的算法工程笔记 公众号,转载请注明出处

论文: AlignSum: Data Pyramid Hierarchical Fine-tuning for Aligning with Human Summarization Preference

  • 论文地址:https://arxiv.org/abs/2410.00409
  • 论文代码:https://github.com/csyanghan/AlignSum

创新点


  • 发现在文本摘要任务中,预训练语言模型在自动评估与人工评估中表现不一致,原因可能是低质量的训练数据。
  • 考虑到标注成本,论文提出了一种新的人类摘要偏好对齐框架 \({\tt AlignSum}\) ,使用提取、LLM生成和人工标注等多种方法构建数据金字塔,能够充分利用极其有限的高质量数据来提升预训练语言模型(PLMs)在摘要生成方面的能力极限。

内容概述


文本摘要任务通常使用预训练语言模型(PLMs)来适应各种标准数据集。尽管这些PLMs在自动评估中表现出色,但在人工评估中常常表现不佳,这表明它们生成的摘要与人类摘要偏好之间存在偏差。这种差异可能是由于低质量的微调数据集,或者是能反映真正的人类偏好的高质量人类标注数据有限。

注释大量高质量摘要数据集是不切实际的,论文希望不再依赖于对大量训练数据进行传统的简单微调,而是充分利用极其有限的高质量数据来提升预训练语言模型(PLMs)在摘要生成方面的能力极限。

为了解决这个挑战,论文提出了一种新的人类摘要偏好对齐框架 \({\tt AlignSum}\) 。该框架由三个部分组成:首先,构建一个数据金字塔,其中包含抽取式、生成式和人类标注的摘要数据。其次,进行高斯重采样,以去除极端长度的摘要。最后,在高斯重采样后实现两阶段的分层微调与数据金字塔的结合。

\({\tt AlignSum}\) 应用到人类标注的CNN/DailyMailBBC XSum数据集中,像 BART-Large这样的PLMs在自动评估和人工评估中都超越了175BGPT-3。这证明了 \({\tt AlignSum}\) 显著增强了语言模型与人类摘要偏好的对齐。

AlignSum


整体框架包含三个部分:

  1. 使用提取、LLM生成和人工标注等多种方法构建数据金字塔(Data Pyramid)。
  2. 由于源数据具有不同的摘要长度,利用高斯重新采样来调整生成摘要的长度,以接近目标长度。
  3. 采用了两阶段的层次微调策略:初始阶段对PLMs进行抽取式和生成式数据的训练,以适应一般领域,然后在人工标注数据上对刚刚微调过的PLMs进行进一步微调,以使其与人类偏好对齐。

构建数据金字塔

数据金字塔由三个层级组成,从下到上按质量和获取难度递增,而数量则递减。前两者是摘要生成领域中最常见的两种风格,将它们统称为通用数据。最后一层是用于对齐人类偏好的最关键部分,称之为个性化数据。

  • 抽取式数据

抽取式数据构成了预训练语料库的主要部分,并且是最容易获得的。参考GSG,使用 ROUGE-1指标来计算相似性,并遍历整个文档以找到与之最相似的句子作为伪摘要 \(\hat{S}\)

\[\begin{equation} \begin{split} &\ \ r_i = \mathrm{Rouge} (d_i, D_{\setminus d_i}), \\ &\ \ \hat{S} = \mathrm{argmax}_{d_i} \{r_i\}_{i=1}^n. \end{split} \end{equation} \]

  • 生成式数据

抽取式数据有助于识别文档中的重要句子,但不足以总结跨越多个句子的关键信息。相比之下,LLMs(大规模语言模型)是有效的零样本摘要生成器,能够提取跨句子及文档级别的摘要信息。

使用系统提示和用户提示引导LLMs对文档 \(D\) 进行摘要,并生成伪摘要 \(\hat{S}\) 。系统提示指定了准确摘要生成的一般要求,然后在用户提示之前插入文档,确保LLM能够阅读整个文档并遵循用户要求。用户提示是数据集特定的,设定所需的摘要长度和单词数量。

  • 人类标注数据

通过使用上述两种数据进行训练,PLMs(预训练语言模型)获得了领域特定的知识。为了生成符合人类偏好的摘要,进一步在人类标注数据上进行微调是必要的。

为了避免随机注释的差异性,使用Element-aware数据集。该数据集遵循特定指令,结合了微观和宏观需求,确保一致且高质量的人类注释。

高斯重采样

三个不同的数据源的伪摘要都有独特的标记长度分布,其中抽取式和抽象数据的摘要标记长度分布存在明显差异。因此,直接使用这些不同的分布进行训练可能会导致生成过长或过短的摘要。

为了解决这个问题,引入了高斯重采样技术,以使所有摘要长度与人类注释的摘要对齐。

将人类标注数据的标记长度分布建模为高斯分布。在95%概率的 [ \(\mu - 2\sigma\) , \(\mu + 2\sigma\) ]区间内对抽取式和抽象数据进行重采样,以去除具有过长或过短伪摘要的样本。

两阶段层级微调

直接对预训练语言模型(PLMs)进行微调可能会很具挑战性,因为少量的高熵数据对于对齐至关重要,但可能会受到大量低熵数据的信息干扰,从而导致数据金字塔的未充分利用。

为了避免这个潜在问题,论文提出两阶段的分层微调策略。给定一个预训练语言模型 \(p_{\theta}\)

  1. 首先通用微调阶段,使用抽取式和抽象数据对 \(p_{\theta}\) 进行微调,以增强其生成领域通用摘要的能力,从而获得模型 \(p_{\theta'}\)
  2. 接下来是个性化微调阶段,使用人类标注数据对 \(p_{\theta'}\) 进行微调,以创建与人类偏好对齐的最终模型 \(p_{\theta''}\)

主要实验




如果本文对你有帮助,麻烦点个赞或在看呗~
更多内容请关注 微信公众号【晓飞的算法工程笔记】

work-life balance.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/833305.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

快速提升职场效率:从整理任务清单开始

在职场中,我们总会面对各种大小不一的任务,常常让人有种“任务无处不在、却无从下手”的感觉。有效地管理工作,既需要掌握具体的任务管理方法,也需要选择一款适合的工具帮助我们更高效地完成这些任务。今天就从最基础的“整理任务清单”说起,分享一些提高职场效率的实用技…

ABB IRB5500喷涂机器人电机维修故障方法

ABB喷涂机器人电机在运行过程中可能会遇到多种常见故障,用户需根据电机的实际运行状况,细致地进行故障辨析并采取适当的处理措施。在进行维修作业时,务必严格遵守安全操作规程,确保不会对机器人本身及维修人员造成任何伤害。 一、ABB喷涂机器人电机维修故障现象的初步判断与…

NocoBase 本周更新汇总:提升工作流易用性

汇总一周产品更新日志,最新发布可以前往我们的博客查看。 NocoBase 目前更新包括两个分支:main 和 next 。 main :截止目前最稳定的版本,推荐安装此版本。 next:内测版,包含一些未发布的新特性,这个版本可能还不完全稳定,适用于开发者或测试人员,用于提前体验新功能或…

AD(活动目录)环境下使用kms服务自动激活域里windows

AD(活动目录)环境下使用kms服务自动激活域里windows 做基础架构运维对AD域架构和kms激活应该是比较熟悉的,关于kms激活服务器搭建,可以看看网上的相关资料,其安装在CentOS比较稳定,当然也支持其他类似的OS。安装过程不再赘述了。希望能够帮助大家! 可以参考: bbs.pcbet…

Mac和安卓手机互传文件(ADB)

点赞 + 关注 + 收藏 = 学会了 本文简介 今年的 Mac mini M4 真的鲨疯了,丐版原价4字头,领到国补的3字头可以拿下。相信很多想体验 macOS 的工友都蠢蠢欲动了。 但是,电脑便宜了,手机可不便宜。对于正在使用 「苹果电脑 + 安卓手机」 的工友来说,想让这两设备互传体积大、数…

什么是数字图像?

点赞 + 关注 + 收藏 = 学会了 什么是数字图像? 弄懂数字图像的概念对学习计算机视觉很有帮助。 那么,什么是数字图像? 字面意思,数字图像就是有数字组成图像。通常由像素(Pixel)组成,每个像素包含颜色或亮度信息。数字图像的格式包括位图和矢量图两种主要类型:位图图像…

经销商文件外发,如何实现安全与效率的双赢?

经销商文件外发是指经销商在业务运营过程中,与供应商、客户、合作伙伴以及其他相关方之间进行的文件接收和发送活动。这些文件涵盖了订单、发票、合同、产品目录、库存报告、市场活动资料、运输单据、客户反馈等多种类型,对于经销商的日常运营、业务管理、客户关系维护以及决…

发布的网站代码修改,如何在生产环境中安全地修改已发布的网站代码

在生产环境中修改已发布的网站代码需要谨慎操作,以确保网站的稳定性和安全性。以下是具体步骤:备份网站:在修改前,备份当前的网站文件和数据库,确保数据安全。 使用FTP工具或数据库管理工具进行备份。创建测试环境:在本地或开发服务器上创建一个与生产环境一致的测试环境…

织梦网站在哪里修改图片的alt,如何在织梦后台或代码编辑器中修改图片的Alt属性

登录织梦后台:打开浏览器,输入织梦网站的后台地址,例如 http://yourdomain.com/dede。 输入管理员账号和密码,点击“登录”。进入内容管理:登录后,点击顶部菜单栏中的“内容”。 选择“文档管理”或“文章管理”。选择需要修改的文章:在文档管理页面中,找到需要修改的文…

修改网站模板布局的软件,如何使用专业的软件修改网站模板布局

使用专业的软件可以更高效地修改网站模板布局。以下是一些常用的软件及其使用方法:Adobe Dreamweaver:安装软件:从Adobe官网下载并安装Dreamweaver。 打开项目:使用Dreamweaver打开网站项目文件夹。 修改布局:在设计视图中拖放元素,调整布局。 保存文件:修改完成后,保存…

Mysql篇-三大日志

概述undo log(回滚日志):是 Innodb 存储引擎层生成的日志,实现了事务中的原子性,主要用于事务回滚和 MVCC。 redo log(重做日志):是 Innodb 存储引擎层生成的日志,实现了事务中的持久性,主要用于掉电等故障恢复; binlog (归档日志):是 Server 层生成的日志,主要…

客户端 web 测试

单功能测试 单功能: 软件程序或应用程序只提供一项核心功能或特性, 而不包含其他附加功能. 这些功能都是独立的.以测试登录功能为例, 要测试登录的话, 要先准备一些资料, 最常见的资料有产品的原型设计, 以及设计的时候的需求文档, 有了这些数据之后应该如何开展测试呢?要把这…