1.Few-shot COT(CoT, 思维链)
通过向大语言模型展示一些少量的例子(Few-shot ),在样例中解释推理过程,大语言模型在回答时也会模拟人类思考推理的过程生成中间的推理步骤,,再得到答案。这种推理的解释往往会引导出更准确的结果。
对应的论文如下:
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
- COT带来的效果提升具有涌现性,只在100B左右的大模型上才出现显著更优的效果,但作者没有给出模型规模的影响原因
- COT带来的效果提升在复杂问题例如GSM8K上(常识推理,数学问题,符号推理等)表现更显著
论文还进行了一些消融实验:
- 准确率提升是否来自数学公式的引入?
论文尝试了few-shot部分只加入公式并不能显著提升效果。
- 准确率提升是否因为few-shot-cot帮助模型更好的召回相应的知识?
论文尝试了先给出答案再进行推理的prompt模板,发现效果显著变差。说明few-shot-COT只是激活模型给出推理,推理过程本身才是模型效果提升的核心。我们在一些需要推理的多项选择问题上也发现,先推理再回答选项的效果显著优于先回答选项再给出推理过程
2.Zero-shot COT
除了使用Few-shot-COT样本可以让模型给出推理过程,单纯用指令也可以让模型给出思维链,且能进一步提升模型复杂问题推理能力。论文中效果最好的激活思维链的指令是"Let's think step by step"
效果上,论文在MultiArith和GSM8k上和few-shot-cot进行了对比,整体上比few-shot略差,但是要显著超越只使用指令的baseline。不过需要注意,这里的评测模型还是是text-davinci-002,是没有经过RLHF只做了SFT的版本,并不是当前的最强模型,因此下图的效果提升放到GPT4上会打不小的折扣。毕竟GPT-4使用few-shot-COT在GSM8k上准确率已经奔着90%+去了。在模型大小上,zero-shot-COT同样具有规模效应,只在大模型上才表现出超越常规指令的效果
3. CoT流程标准化
研究结果表明,在一定限度内,推理链的长度与大模型推理能力之间存在显着相关性。 有趣的是,当我们将误导性信息引入推理链时,性能仍然表现出改善。 这突显了一个关键的见解:关键因素似乎是思维链的长度,而不是其准确性。
我们有以下主要发现,希望能够帮助学术界更好地提高 CoT 性能。
对于few-shot COT,步数和准确性之间存在直接的线性相关:这为优化复杂推理中的 CoT 提示提供了一种可量化的方法。 具体来说,延长提示中的推理步骤可以显着增强LLM跨多个数据集的推理能力。 即使在保留关键信息的情况下,缩短推理步骤也会显着降低模型的推理能力。
如果保持必要的推理长度,即使是不正确的基本原理也可以产生有利的结果:例如,在数学问题等任务中,由于其面向过程的性质,中间数字的错误影响较小。
参考深入探索CoT有效性和推理步长对于LLM性能的影响_cot形式的推理能力-CSDN博客
参考:
认知篇:什么是CoT(思维链)? 也许GPT需要你引导-CSDN博客
深入探索CoT有效性和推理步长对于LLM性能的影响_cot形式的推理能力-CSDN博客
解密Prompt系列9. 模型复杂推理-思维链基础和进阶玩法-腾讯云开发者社区-腾讯云