教小模型进行推理

news/2024/9/19 4:58:28/文章来源:https://www.cnblogs.com/little-horse/p/18416684

思维链提示在基础层面上是如此成功,以至于它产生了一些被称为 x

链现象的东西。谷歌研究院探索了如何使用 llm 为现有数据集生成

CoT 数据本体,然后如何在 CoT 上微调较小的语言模型。

介绍

众所周知,思维链提示提高了大型语言模型的推理能力。

谷歌断言,推理能力只出现在具有至少数百亿参数的模型中。谷歌的这项研究探索了通过知识蒸馏将这些能力转移到更小的模型上。

他们利用一个更大的教师模型的思维链输出对一个学生模型进行了微调。

来自谷歌的研究人员发现,这种方法提高了算术、常识和符号推理数据集的任务性能。

思维链(CoT)

思维链(CoT)提示教导语言模型(lm)将推理任务分解为一系列中间步骤。

研究表明,这种提示显著提高了跨常识、符号和数学推理数据集的大型语言模型(llm)的任务准确性。

然而,较小的 lm 的推理能力在 CoT 提示下并没有提高,大多产生非逻辑的CoT。值得注意的是,CoT 提示甚至降低了小于 100 亿个参数的模型的准

确性。

研究将其归因于语义理解和符号映射等能力,这些能力仅在更大规模的模型中出现。

该方法

谷歌研究提出了 CoT(思维链)知识蒸馏的两步管道。

CoT 推理注释

  1. 使用教师模型,如 PaLM 540B 或 GPT-3 175B,用 CoT 推理注释现有的监督数据集。
  2. 使用 8 个示例执行少镜头提示以生成 CoT,调整提示以在问题之后和示例 CoT 之前提供目标答案。这有助于纠正小错误。
  3. 根据目标答案剔除不正确的 CoT,保证质量。

微调学生模型

  1. 使用教师强迫对学生模型进行微调。
  2. 提供问题作为输入,CoT 和答案作为目标。
  3. 这种训练消除了微调过程中提示的需要。

所提出方法的概述如下图所示

这张图是所提出方法的概述

总之

这项研究又是一个很好的例子,证明了快速工程技术是有效的,正在进入语言模型训练。因此,提示工程正在影响训练数据拓扑。

这也是 LLM 用于生成或增强小型语言模型的训练数据的另一个例子。

第三,第一步涉及使用教师模型生成的 CoT 推理对现有的监督数据集进行

注释。已经有许多研究通过人工注释和监督过程创建了非常细粒度、细粒

度的数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/798226.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[WesternCTF2018]shrine

打开题目就得到了python代码 import flask import os #导包 app = flask.Flask(__name__) #创建一个flask实例, app.config[FLAG] = os.environ.pop(FLAG) #从操作系统的环境变量中读取名为FLAG的值,并将其存储在Flask的配置中,POP:读取后删除该环境变量@app.route(/) #定义…

MySQL 8.0 Public Key Retrieval is not allowed 错误的解决方法

原文:MySQL 8.0 Public Key Retrieval is not allowed 错误的解决方法 参考:Connection Java - MySQL : Public Key Retrieval is not allowed在使用 MySQL 8.0 时重启应用后提示com.mysql.jdbc.exceptions.jdbc4.MySQLNonTransientConnectionException: Public Key Retrieva…

MobaXterm 密钥生成器

1、MobaXterm 密钥生成器,代码仓库地址: https://gitcode.com/gh_mirrors/mo/MobaXterm-keygen/blob/master/MobaXterm-Keygen.py 2、也可以用我打包好的exe程序,不用安装python环境: https://pan.baidu.com/s/1jo85pQc_kfWhcYmZcc49CQ 提取码:ws10 3、源码:#/usr/bin/e…

Linux引导启动程序(boot)

概述 本章主要描述boot/目录中的三个汇编代码文件,见列表6-1所示。正如在前一章中提到的,这三个文件虽然都是汇编程序,但却使用了两种语法格式。bootsect.s和setup.s是实模式下运行的16位代码程序,采用近似于Intel的汇编语言语法并且需要使用Intel 8086汇编编译器和连接器as86和…

9、const修饰指针

*代表指针,这样有助于记忆和区别这三种

day1闯关作业小结[linux基础知识]

完成SSH连接与端口映射并运行hello_world.py 1.进入InternStudio https://studio.intern-ai.org.cn/, 创建个人开发机2.使用密码进行SSH远程连接并进行端口映射3.运行hello_world.py

白云龙期货投资-第三讲

反转形态**头肩底(顶) 双底(顶) 三重底(顶) 圆弧底(顶)**持续形态**三角形 旗形 楔行 扩散三角形 收缩三角形**K线形态(反转形态,持续形态) 反转形态 头肩底(顶) 双底(顶) 三重底(顶) 圆弧底(顶) 持续形态 三角形 旗形 楔行 扩散三角形 收缩三角形 头肩顶头肩底双底(双顶)下…

java的方法和数组

什么是方法呢? 就类似c语言的函数 返回类型 方法名 形式参数列表 方法名最好使用小驼峰的形式,在java中方法不可以嵌套使用, 方法的调用: 就是在main方法里面写上调用的方法名加上需要传输的值,创建一个和方…

mongo集群同步数据异常,手动同步节点副本数据

转载请注明出处: 数据同步方案当副本集节点的复制进程落后太多,以至于主节点覆盖了该节点尚未复制的 oplog 条目时,副本集节点就会变为“陈旧”。节点跟不上,就会变得“陈旧”。出现这种情况时,必须删除副本集节点的数据,然后执行初始同步,从而完全重新同步该节点。 Mon…

7、函数分文件编写

1、swap.h2、swap.cpp3、使用

三、redis之strings类型

strings是redis中使用最多的类型。 redis官网中是这么描述strings的: Redis strings store sequences of bytes, including text, serialized objects, and binary arrays. 可以看到Redis strings保存的是sequences of bytes,也就是字节序列。不仅可以保存字符串,而且还可以…