System 2 Attention:可以提高不同LLM问题的推理能力

推理正在成为大型语言模型(llm)关注的下一个主要领域。尽管llm拥有先进的能力,但大多数llm经常被简单的错误绊倒,显示出他们在推理方面的局限性。这些模型可能会被上下文中的不相关细节所误导,或者受到输入提示中的偏差的影响。而后一种倾向被称为谄媚,也就是说模型会更偏向与输入一致,而不管准确性如何。人们已经做出了各种努力来解决这些缺点,包括增加监督训练数据或应用强化学习方法。在最近的一项研究中,Meta AI认为问题的根源在于这些模型中使用的transformer 架构的基本设计,特别是注意力机制。这项研究的灵感来自丹尼尔·卡尼曼和阿莫斯·特沃斯基对行为心理学的研究,这些研究在《Thinking Fast and Slow》一书中得到了精彩的阐述。

  1. 系统1(System 1): 这是一种快速、直觉性、自动的思考方式。它是我们在处理日常事务时采用的那种直觉反应,几乎是无意识的。系统1负责快速做出决策,识别模式,感知情绪等。然而,它有时候可能会导致错误,因为它更容易受到情感和直觉的影响。
  2. 系统2(System 2): 这是一种更为缓慢、深思熟虑、理性的思考方式。当我们面临更复杂、挑战性的问题时,系统2被激活。这种思考方式需要更多的认知努力,包括逻辑分析、推理和意识层面的思考。系统2更能够进行深度思考,但也更耗费时间和精力。

问题

LLM通过广泛的前期训练,在推理和知识积累方面表现出色。它们被设计成高度关注当前语境来预测下一个单词。例如,如果一个特定的实体出现在文本中,模型会预测它的重复出现。基于“transformer”的模型,擅长在语境中识别相似的单词和概念。虽然这提高了他们预测的准确性,但也使他们容易受到分析环境中误导性相关性的影响。

S2A

Meta AI 的这种方法被称为系统2注意力(S2A),包括提示LLM创建一个上下文,剥离掉可能扭曲推理的不相关信息。这个概念的灵感来自人类的认知过程,其中“System 2”代表有意识的、努力的心理活动,特别是在容易出错的“System 1”推理不够充分的情况下。S2A旨在通过指导LLM的推理能力来克服transformer 注意力机制固有的缺陷来复制这一点。

在一个典型的场景中,LLM提供了一个上下文(x),并负责生成高质量的输出(y)。S2A通过两步法修改了这个过程。首先,S2A通过删除可能对输出产生负面影响的元素,将给定的上下文(x)重新表述为精炼的版本(x’)。用x ’ ~ S2A(x)表示。然后,LLM使用修改后的上下文(x ')生成最终响应(y),而不是用y ~ LLM(x ')表示的原始上下文。

S2A包含了一系列实现这第一步的技术。Meta AI的具体方法利用了已经熟练掌握推理和生成任务的指令调整LLM。他们使用这些功能通过提示来指示LLM执行S2A任务。在实践中,这涉及到创建一个零样本提示,引导LLM将System 2 Attention应用于给定的上下文,表示为S2A(x) = LLM(PS2A(x)),其中PS2A是生成提示的函数。

Meta AI选择LLaMA-2-70B-chat作为他们的主要评估模型。他们在两种不同的情况下评估其性能:

基线设置:在这种方法中,数据集的输入提示直接提供给模型,然后模型以零样本的方式生成响应。这种方法很简单,但有一个缺点。模型的输出容易受到输入提示中出现的任何偏见、意见或无关细节的影响。

默示(Oracle)提示:给模型一个清理过的提示,去掉任何多余的观点或不相关的句子。然后,模型以零样本的方式响应这个改进的提示。如果它能够从输入中完美地过滤掉无关信息,那么则可以衡量模型的理想性能水平。

结果

评估S2A在三种不同场景下的有效性,这些场景突出了LLM的推理能力。

事实问题回答:用了来自SycophancyEval1的TriviaQA版本,专为直接基于事实的查询而设计,但在提示中包含了额外的意见。他们用提示进行实验,提示或建议正确答案或错误答案,或反驳正确答案。众所周知,这些附加因素会影响标准模型的响应。研究结果表明,在这种受意见影响的场景中,S2A显著提高了准确性,与无偏见或“oracle”提示的性能密切匹配。

长篇论点生成:使用了SycophancyEval的论点提示,其中包括所提供论点上下文中的观点。这些提示带有评论,表达了对论点的喜欢、不喜欢、作者身份或非作者身份。标准模型往往会根据这些情绪来歪曲他们的反应。但是S2A在保持生成的参数的客观性方面有了显著的改进,甚至超过了oracle提示符的客观性水平。

数学单词问题解决:在GSM-IC任务上测试S2A,该任务涉及来自GSM8K的数学单词问题,但添加了不相关的句子。这些分散注意力的句子会显著降低llm的准确性。Meta AI使用两种类型的干扰进行实验:随机的和主题相关的。该设置旨在评估S2A如何有效地过滤掉无关信息,并专注于问题的基本方面,以提供准确的解决方案。

总结

S2A是LLM推理方法发展的一个重要里程碑。该方法与人类推理非常相似,避免了干扰。我们应该期待S2A在最近几个月成为推理研究的重要基线。

论文地址:System 2 Attention (is something you might need too)

https://avoid.overfit.cn/post/4d6dae0510b44b779668dc4ab51108e9

作者:Jesus Rodriguez

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/266730.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

openlayers-19-分屏对比

分屏对比实现很简单&#xff0c;定义两个map对象&#xff0c;然后让这两个map对象共用一个view即可。 代码如下&#xff1a; <!DOCTYPE HTML PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd…

(纯原创) 基于SSM 的商城购物系统(完整源代码以及开发文档)

摘要 本网上商城系统以SSM架构、使用Mybatis&#xff0c;数据库使用MySQL&#xff0c;这些技术目前相对比较成熟&#xff0c;方便系统的维护与扩展。网上商城系统前台包括了用户注册、用户登录、商品查询、商品添加到购物车、删除商品等几大功能&#xff1b;后台管理功能则包…

vue 中国省市区级联数据 三级联动

vue 中国省市区级联数据 三级联动 安装插件 npm install element-china-area-data5.0.2 -S 当前版本以测试&#xff0c;可用。组件中使用了 element-ui, https://element.eleme.cn/#/zh-CN/component/installation 库 请注意安装。插件文档 https://www.npmjs.com/package/ele…

一份热乎的前端面经(已拿字节、腾讯、蚂蚁Offer)

字节面试过程&#xff1a; 11月4号进行内推&#xff0c;7天的简历评估&#xff0c;11号接到电话面试&#xff0c;尽管猝不及防回答仓促&#xff0c;但好在前期准备充分&#xff0c;通过。14号现场面试&#xff0c;次日收到通知&#xff0c;通过。16号进行HR面&#xff0c;22号…

pdi-ce-9.4.0.0-343.zip和pentaho-server-ce-9.4.0.0-343.zip区别及简单使用

目录 &#x1f351;一、概述&#x1f34a;1.1、pdi-ce-9.4.0.0-343.zip&#x1f34a;1.2、pentaho-server-ce-9.4.0.0-343.zip &#x1f351;二、简单使用&#x1f34a;2.1、pdi-ce-9.4.0.0-343&#x1f34a;2.2、pentaho-server-ce-9.4.0.0-343&#x1f34a;2.3、联合使用 &am…

漏洞复现--速达进存销管理系统任意文件上传

免责声明&#xff1a; 文章中涉及的漏洞均已修复&#xff0c;敏感信息均已做打码处理&#xff0c;文章仅做经验分享用途&#xff0c;切勿当真&#xff0c;未授权的攻击属于非法行为&#xff01;文章中敏感信息均已做多层打马处理。传播、利用本文章所提供的信息而造成的任何直…

大一作业习题

第一题&#xff1a;答案&#xff1a; #include <stdio.h> void sort(int a[], int m) //将数组a的前m个元素(从小到大)排序 {int i 0;for (i 0; i < m - 1; i){int j 0;int flag 1;for (j 0; j < m - 1 - i; j){if (a[j] > a[j 1]){int t 0;t a[j];…

<习题集><LeetCode><队列><225/232/387/622/641>

目录 225. 用队列实现栈 232. 用栈实现队列 387. 字符串中的第一个唯一字符 622. 设计循环队列 641. 设计循环双端队列 225. 用队列实现栈 https://leetcode.cn/problems/implement-stack-using-queues/ class MyStack{private Queue<Integer> queue1;private Queu…

校验maven安装是否安装成功失败

错误分析&#xff1a; 如图&#xff0c;核心文件存没有存放在maven文件夹里&#xff0c;而是存放在他下面的一个文件夹中 解决办法&#xff1a; 将文件剪切到“apache-maven-3.9.6-bin”文件夹中 验证&#xff1a; 问题解决&#xff01;

Mybatis-Plus 3.3.2 发布,新增优雅的数据安全保护姿势[MyBatis-Plus系列]

Hi,大家好,我是悟纤。过着爱谁谁的生活,活出不设限的人生。 存在数据库中的数据对于普通用户而言是不可见的,好像是藏起来了一样,但对于开发者,只要知道数据库的连接地址、用户名、密码,则数据不再安全;这也意味着,一旦连接数据库的配置文件暴露出去,则数据不再安全…

Java毕业设计 SSM SpringBoot 在线学习系统

Java毕业设计 SSM SpringBoot 在线学习系统 SSM SpringBoot 在线学习系统 功能介绍 首页 图片轮播 视频推荐 在线学习 学习介绍 评论 收藏 资料中心 资料详情 下载资料 话题讨论 文档发布 试题中心 系统公告 登录 注册学生 个人中心 试题记录 错题本 我的收藏 算法演示 结果分…

图-数据结构

图的介绍 如果你有学过《离散数学》&#xff0c;那么对图的概念一定不陌生&#xff0c;在计算机科学中&#xff0c;一个图就是一些顶点的集合&#xff0c;这些顶点通过一系列边连接&#xff08;结对&#xff09;。顶点用圆圈表示&#xff0c;边就是这些圆圈之间的连线。注意&a…