CoT个人记录

1.Few-shot COT(CoT, 思维链)

通过向大语言模型展示一些少量的例子(Few-shot ),在样例中解释推理过程,大语言模型在回答时也会模拟人类思考推理的过程生成中间的推理步骤,,再得到答案。这种推理的解释往往会引导出更准确的结果。

对应的论文如下:

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

  • COT带来的效果提升具有涌现性,只在100B左右的大模型上才出现显著更优的效果,但作者没有给出模型规模的影响原因
  • COT带来的效果提升在复杂问题例如GSM8K上(常识推理,数学问题,符号推理等)表现更显著

论文还进行了一些消融实验:

  • 准确率提升是否来自数学公式的引入?

论文尝试了few-shot部分只加入公式并不能显著提升效果。

  • 准确率提升是否因为few-shot-cot帮助模型更好的召回相应的知识?

论文尝试了先给出答案再进行推理的prompt模板,发现效果显著变差。说明few-shot-COT只是激活模型给出推理,推理过程本身才是模型效果提升的核心。我们在一些需要推理的多项选择问题上也发现,先推理再回答选项的效果显著优于先回答选项再给出推理过程

 2.Zero-shot COT

 除了使用Few-shot-COT样本可以让模型给出推理过程,单纯用指令也可以让模型给出思维链,且能进一步提升模型复杂问题推理能力。论文中效果最好的激活思维链的指令是"Let's think step by step"

效果上,论文在MultiArith和GSM8k上和few-shot-cot进行了对比,整体上比few-shot略差,但是要显著超越只使用指令的baseline。不过需要注意,这里的评测模型还是是text-davinci-002,是没有经过RLHF只做了SFT的版本,并不是当前的最强模型,因此下图的效果提升放到GPT4上会打不小的折扣。毕竟GPT-4使用few-shot-COT在GSM8k上准确率已经奔着90%+去了。在模型大小上,zero-shot-COT同样具有规模效应,只在大模型上才表现出超越常规指令的效果

 

3. CoT流程标准化

研究结果表明,在一定限度内,推理链的长度与大模型推理能力之间存在显着相关性。 有趣的是,当我们将误导性信息引入推理链时,性能仍然表现出改善。 这突显了一个关键的见解:关键因素似乎是思维链的长度,而不是其准确性。

我们有以下主要发现,希望能够帮助学术界更好地提高 CoT 性能。

对于few-shot COT,步数和准确性之间存在直接的线性相关:这为优化复杂推理中的 CoT 提示提供了一种可量化的方法。 具体来说,延长提示中的推理步骤可以显着增强LLM跨多个数据集的推理能力。 即使在保留关键信息的情况下,缩短推理步骤也会显着降低模型的推理能力。
如果保持必要的推理长度,即使是不正确的基本原理也可以产生有利的结果:例如,在数学问题等任务中,由于其面向过程的性质,中间数字的错误影响较小。

参考深入探索CoT有效性和推理步长对于LLM性能的影响_cot形式的推理能力-CSDN博客

 

参考:

认知篇:什么是CoT(思维链)? 也许GPT需要你引导-CSDN博客 

深入探索CoT有效性和推理步长对于LLM性能的影响_cot形式的推理能力-CSDN博客 

解密Prompt系列9. 模型复杂推理-思维链基础和进阶玩法-腾讯云开发者社区-腾讯云

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/685409.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

1725 ssm资产管理系统myeclipse开发mysql数据库springMVC模式java编程计算机网页设计

一、源码特点 java ssm资产管理系统是一套完善的web设计系统(系统采用SSM框架进行设计开发,springspringMVCmybatis),对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采用B/…

拼团商城系统搭建如何做?

团购商城就是团体到商城进行购物的一种交易方式,其场景应用包括装修建材、家居用品、汽车、房屋、家电、电脑、生活用品等各个领域。作为消费者,也能从中享受5%到40%不等的商品优惠幅度。那么,拼团商城系统搭建如何做?我们从优势、…

最长递增子序列 详解 CPP

目录 前言思路梳理题解最优思路 我的思路思路一 考虑连续 对一半 思路二 基于思路一的优化 思路三 基于思路二的优化 √ 通过了但是效率太低 我的代码 前言 今天继续做动态dp的第三题,最大子序和,昨天做最大连续子数组的和已经有一些写状态转移方程的经…

2010年认证杯SPSSPRO杯数学建模D题(第一阶段)服务网点的分布全过程文档及程序

2010年认证杯SPSSPRO杯数学建模 D题 服务网点的分布 原题再现: 服务网点、通讯基站的设置,都存在如何设置较少的站点,获得较大效益的问题。通讯基站的覆盖范围一般是圆形的,而消防、快餐、快递服务则受到道路情况和到达时间的限…

这份走心的母亲节礼物清单,请查收!

老舍在《我的母亲》中写道:“人,活到八九十岁,有母亲在,便可以多少还有点孩子气。失了慈母便像花插在瓶子里,虽然还有色有香,却失去了根。有母亲的人,心里是安定的。”母亲,对我们每…

Git详解之五:分布式Git

为了便于项目中的所有开发者分享代码,我们准备好了一台服务器存放远程 Git 仓库。经过前面几章的学习,我们已经学会了一些基本的本地工作流程中所需用到的命令。接下来,我们要学习下如何利用 Git 来组织和完成分布式工作流程。 特别是&#…

搭建知识库必备:12个开源 Wiki 软件工具盘点

在任何成功的公司中,部门间的知识共享是至关重要的。如果没有一个简单的信息交流方法,团队怎样才能有效合作呢?Wiki软件提供了一种创建、组织及在全公司范围内分享知识的直接方法。但是,哪一种Wiki软件是最佳的选择呢?…

论文笔记:PRIVACY ISSUES IN LARGE LANGUAGE MODELS: A SURVEY

1 intro 1.1 motivation 2022年11月ChatGPT的推出引起了全球轰动,推动了人工智能研究、初创企业活动以及大型语言模型(LLM)的消费者采用。到2023年底,LLM的进展持续加速,但人们普遍认为,尽管LLM带来了变革…

Day65:代码随想录训练营总结

两个月的算法训练营之旅圆满落幕,回首这段时光,我深感自己错过了许多早日成长的机会,如今不禁懊悔没有更早地报名参与。 这段充实的日子里,我遵循着训练营精心设计的计划,攻克了上百道力扣题目。从最初对编程语法的生…

【C++】Vector详解

Vector是什么&#xff1f; vector是C&#xff08;STL&#xff09;中的一种序列容器Vector是一个动态数组&#xff0c;内存空间是连续的&#xff0c;支持随机访问&#xff0c;支持迭代器访问 Vector代码实现 变量指向 代码初始化 #include<iostream> using namespace …

【教程向】从零开始创建浏览器插件(四)探索Chrome扩展的更多常用API

探索Chrome扩展的更多常用API 在Chrome扩展开发中&#xff0c;除了最基础的API外&#xff0c;Chrome还提供了一系列强大的API&#xff0c;允许开发者与浏览器的各种功能进行交互。本文将介绍其中几个常用的API&#xff0c;并提供详细的示例代码帮助您开始利用这些API。 书签…

XSS-Labs 靶场通过解析(下)

前言 XSS-Labs靶场是一个专门用于学习和练习跨站脚本攻击&#xff08;XSS&#xff09;技术的在线平台。它提供了一系列的实验场景和演示&#xff0c;帮助安全研究人员、开发人员和安全爱好者深入了解XSS攻击的原理和防御方法。 XSS-Labs靶场的主要特点和功能包括&#xff1a;…