研表究明,文字的序顺并不定一能响影GPT-4读阅

深度学习自然语言处理 原创
作者:yy

6ce4444a6059e054c24382844817c420.png

很多年前,你一定在互联网上看过这张图,展示了人脑能够阅读和理解打乱顺序的单词和句子!而最近东京大学的研究发现,大语言模型(LLMs) 尤其是 GPT-4,也可以读懂打乱顺序的单词,甚至是在人脑都难以分辨的情况下

接下来就让我们来具体介绍一下这个违反直觉的发现吧!3ea34e56077bdc98ec196ec1d765f1d2.png

论文:Unnatural Error Correction: GPT-4 Can Almost Perfectly Handle Unnatural Scrambled Text

地址:https://arxiv.org/pdf/2311.18805.pdf

代码:https://github.com/ccqq77/unnatural-error-correction.

前言

Typoglycemia” 这个词曾在互联网上风靡一时,它是由“打字错误(Typo)”和“低血糖(Hypoglycemia)” 这两个单词拼凑而成。通俗地讲,”Typoglycemia“ 指一个有趣的现象:只要每个单词的首尾字母正确,即使中间的字母顺序是完全打乱的,也不影响人类的正常阅读与理解。

而这篇研究发现,大多数强大的 LLMs 都具备类似于 “typoglycemia” 的超能力。更令人惊讶的是,作者发现,即使每个单词中的所有字母都是乱序, 仍有且并仅有 GPT-4 能近乎完美地从乱序中恢复原始句子,将编辑距离减少 95%!尽管乱码文本对输入 tokenization 造成了严重破坏,但 LLMs 仍能表现出如此强大的恢复能力!

任务设计

为了评估 LLMs 处理乱序文本的能力,作者提出了 Scrambled Bench ,包含两个任务(如图所示)。

9e36bc0762ba93f47a3606fe95e3c2b9.png

1. 乱序句子恢复(ScrRec)

提供包含乱序词的句子,要求LLMs恢复出原始句子。这项任务可以直接评估 LLMs 识别和重建句子中乱序词的能力。

2. 乱序问题解答(ScrQA)

如果模型在 ScrRec 任务中表现不佳,可能有两个原因:

(1) 模型难以遵循指令;

(2) 模型无法恢复句子。

为了区分这两种情况,作者设计了 ScrQA 任务来评估模型在乱序语境下完成标准任务(即 QA )的能力。具体而言,作者将包含了回答问题所需基本信息的文本打乱,并根据模型表现的差异对其进行评估。

数据集构建

RealtimeQA(2022年)

RealtimeQA 是一个动态的问题解答数据集,每周都会公布有关近期新闻的问题。为了缓解数据污染,作者从 RealtimeQA 中收集最近的数据(2023/03/17-2023/08/04),并对证据句进行加扰处理,以构建 ScrRec 和 ScrQA 任务的样本。

DREAM(2019年)

DREAM 是一个基于对话的多选阅读理解数据集。作者对每个问题的对话部分进行了加扰处理。

AQuARAT(2017年)

AQuA-RAT 是一个数学单词问题数据集,需要多步推理才能解决。作者采用了 few-shot Chain of Thought(CoT),并对主问题和示例问题都加入扰动。

对于每个数据集,作者使用不同的扰动类型和比例生成扰动文本。

1. 随机扰动(RS)

对于每个句子,随机选择一定比例(20%、50%、100%)的单词,并随机扰乱每个选定单词中的所有字母(阿拉伯数字保持不变)。

2. 保留第一个字母(KF)

保持每个单词的第一个字母不变,并随机扰乱其他位置的字母。

3. 保留首尾字母(KFL)

保持每个单词的第一个和最后一个字母不变,并随机扰乱其他位置的字母。

评价指标

Recovery Rate (RR)

对于 ScrRec 任务,原始句子与恢复句子之间的平均编辑距离(ED)是一种自然的性能度量指标。

此外,作者还定义了 Recovery Rate(RR)来衡量 ED 在恢复的句子中所占的比例,从而可以更简明地比较不同设置下模型的性能:

Relative Performance Gain (RPG)

对于 ScrQA 而言,accuracy 是衡量性能的一个自然指标。但是由于不同模型在处理原始问题时的能力存在差异,很难比较不同模型的性能。

因此,作者引入了 Relative Performance Gain(RPG),将评估重点放在与原始文本相比,模型理解扰动文本的能力上:

实验设置

作者评估了最强大的闭源 LLM,包括 text-davinci-003、GPT-3.5-turbo 和 GPT-4,以及 Falcon 系列、Llama-2 系列、MPT 系列、UL2 系列、T5 系列等开源模型。对于各数据集和任务,采取了以下设置:

  • RealtimeQA

    • ScrRec:zero-shot + few-shot

    • ScrQA:zero-shot

  • DREAM

    • ScrQA :zero-shot

  • AQuA

    • ScrQA :few-shot COT

结果分析

由于篇幅等原因,仅展示性能最好的五种 LLM(即 GPT4、GPT-3.5-turbo、text-davinci-003、Falcon-180b 和 Llama-2-70b)的结果。

结果 1:扰动类型

实验结果表明,在 KFL 设置下,各模型之间的性能差距不大。然而,除 GPT-4 外,随着扰动类型难度的增加(KFL ➡ KF ➡ RS),模型性能明显下降。相比之下,GPT-4 的性能始终保持在较高水平,而与扰动类型无关。在 ScrRec 任务上,GPT-4 的 RR 在所有设置下都保持在 95% 以上。在 ScrQA 任务上,GPT-4 的表现一直优于其他模型,即使扰动的难度增加,也能保持较高的准确率。

5e161448b36e531d3c8b3d0653a6aa7a.png

结果 2:扰动比例

随着扰动比例的增加,text-davinci-003、Falcon-180b 和 Llama-2-70b 的 RR 会降低。GPT-3.5-turbo 和 GPT-4 的 RR 变化不大。GPT-4 的表现远远优于其他模型,大多数设置下的 RR 都高于 95%(20% 扰动率除外)。

所有模型的 RPG 都随着扰动比例的增加而下降但 GPT-4 即使在 100%加扰证据的情况下,仍能保持 87.8% 的原有性能。随着扰动比例的增加,不同模型之间的性能差距也越来越大。

6854ee8aab8f07723655d2f5cb9e8fe4.png

结果 3:其他数据集

在加扰的 DREAM 数据集上,除了评估整体性能,作者还评估了不同类别问题的性能。结果显示,GPT-4 与其他模型间的差异比在 RealtimeQA 上更加突出,这可能由于 DREAM 需要对较长文本进行深层次理解。与其他类别相比,模型在算术问题上的表现往往更容易受到乱序文本的影响,即使是 GPT-4 也是如此。

8db73ca654aa74440e2af7b2af4cac33.png

下表展示了在加扰的 AQuA-RAT 数据集上进行 4-shot CoT 设置的实验结果。结果表明,加扰示例的影响相对较小。但当主问题的加扰率达到 100%时,GPT-3.5-turbo 和 text-davinci-003 的性能明显下降,而 GPT-4 基本保持了最初的性能

70b7d9a29818394e516ca87485ccbbf4.png

结论

本研究提出了 Scrambled Bench 来衡量 LLMs 处理乱序文本的能力,包括两个任务(乱序句子恢复 ScrRec 和乱序问题解答 ScrQA),并基于 RealtimeQA、DREAM 和 AQuA-RAT 构建了乱序数据集。尽管乱序文本显著改变了 tokenization,大多数强大的 LLMs 仍能在不同程度上处理乱序文本,不过它们在面对极端乱序的文本时会显得力不从心。在这两项任务中,GPT-4 都表现出了良好的性能,显著优于其他模型。

未来的改进空间也很大。首先,对于 LLMs,还有多种方法可以破坏单词的 tokenization(如插入字母、替换字母等)。其次,ScrRec 和 ScrQA 这两项任务适用于多种数据集且易于扩展分析。最后,由于无法直接访问闭源模型,作者没有总结出 LLMs 能够处理这些任务的具体原因。特别地,GPT-4 可以近乎完美地完成任务,其背后的原因值得深究!


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

e71b4e86be2e04d14a19fcd8ef9afda0.png

id:DLNLPer,记得备注呦

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/264479.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++枚举类

枚举 C11有作用域枚举和无作用域枚举 无作用域枚举 特点 全局作用域:无作用域枚举的成员(枚举值)在包含它们的作用域内是直接可见的,不需要使用枚举类型名称作为前缀。 隐式类型转换:无作用域枚举的成员可以隐式地转换…

C++ 模拟实现vector

目录 一、定义 二、模拟实现 1、无参初始化 2、size&capacity 3、reserve 4、push_back 5、迭代器 6、empty 7、pop_back 8、operator[ ] 9、resize 10、insert 迭代器失效问题 11、erase 12、带参初始化 13、迭代器初始化 14、析构函数 完整版代码 一、…

TCP的滑动窗口机制

网络的错误检测和补偿机制非常复杂。 一、等待超时时间(返回ACK号的等待时间) 当网络繁忙时会发生拥塞,ACK号的返回变慢,较短的等待时间会导致频繁的数据重传,导致本就拥塞的网络雪上加霜。如果等待时间过长&#xf…

IT新闻资讯系统,使用mysql作为后台数据库,此系统具有显示数据库中的所有信息和删除两大功能。

表的准备: -- MySQL Administrator dump 1.4 -- -- ------------------------------------------------------ -- Server version 5.1.40-community /*!40101 SET OLD_CHARACTER_SET_CLIENTCHARACTER_SET_CLIENT */; /*!40101 SET OLD_CHARACTER_SET_RESULTSCHAR…

【PWN】学习笔记(二)【栈溢出基础】

课程教学 课程链接:https://www.bilibili.com/video/BV1854y1y7Ro/?vd_source7b06bd7a9dd90c45c5c9c44d12e7b4e6 课程附件: https://pan.baidu.com/s/1vRCd4bMkqnqqY1nT2uhSYw 提取码: 5rx6 C语言函数调用栈 一个栈帧保存的是一个函数的状态信息&…

架构设计系列之基础:初探软件架构设计

11 月开始突发奇想,想把自己在公司内部做的技术培训、平时的技术总结等等的内容分享出来,于是就开通了一个 Wechat 订阅号(灸哥漫谈),开始同步发送内容。 今天(12 月 10 日)也同步在 CSDN 上开通…

nodejs微信小程序+python+PHP健身服务应用APP-计算机毕业设计推荐 android

人类的进步带动信息化的发展,使人们生活节奏越来越快,所以人们越来越重视信息的时效性。以往的管理方式已经满足不了人们对获得信息的方式、方便快捷的需求。即健身服务应用APP慢慢的被人们关注。首先,网上获取信息十分的实时、便捷&#xff…

mysql中的DQL查询

表格为: DQL 基础查询 语法:select 查询列表 from 表名:(查询的结果是一个虚拟表格) -- 查询指定的列 SELECT NAME,birthday,phone FROM student -- 查询所有的列 * 所有的列, 查询结果是虚拟的表格&am…

Vue3:表格单元格内容由:图标+具体内容 构成

一、背景 在Vue3项目中,想让单元格的内容是由 :图标具体内容组成的,类似以下效果: 二、图标 Element-Plus 可以在Element-Plus里面找是否有符合需求的图标iconfont 如果Element-Plus里面没有符合需求的,也可以在这…

Java类对象的操作

1.Student.java package Message; public class Student {private String stuName; // 姓名private int money; // 存款余额private String studentID; // 学号private int age; // 年龄private String address; // 地址private String phoneNumber; // 电话号码private String…

使用alpine镜像部署go应用时踩的坑

使用alpine镜像部署go应用时踩的坑 关于交叉编译 实际上我在ubuntu的交叉编译出来的exe并不能在alpine上运行,这边采取拉镜像编译复制出来的做法,部署再用干净的alpine 拉取golang:alpine踩坑 在Dockerhub上可以找到: 然而拉取的alpine中…

虚拟机VMware安装centos以及配置网络

目录 1、CentOS7的下载2、CentOS7的配置3、CentOS7的安装4、CentOS7的网络配置 4.1、自动获取IP4.2、固定获取IP 5、XShell连接CentO 准备工作:提前下载和安装好VMware。VMware的安装可以参考这一篇文章:VMware15的下载及安装教程。 1、CentOS7的下载 …