XTuner笔记

为什么要微调:

1.  模型不具备一些私人定制的知识

2。模型回答问题的套路你不满意。

对应衍生出来两种概念

  • 增量预训练微调:
    • 使用场景:让基座模型学习到一些新知识,如某个垂类领域的常识
    • 训练数据:文章、书籍、代码等等
  • 指令跟随微调:
    • 使用场景:让模型学会对话模板,根据人类指令进行对话
    • 训练数据:高质量的对话、问答数据

 

 

3. 数据的一生

LoRA和QLoRA

  • LoRA总结
之前的fine-tune的方法

  • Adapters

    方法:在模型的每一层之间添加可训练的小规模的网络,冻结原始网络权重,以此来减少fine-tune所需要的参数量。

    应用:适用于那些希望在保持预训练模型结构不变的同时,对模型进行特定任务调整的场景。

    缺点:引入推理延时

  • Prefix Tuning

    方法:在模型输入部分添加一些可训练的前缀向量,然后将这些向量和数据一起送入模型,改变模型对单独数据的推理结果。

    应用:适用于需要对模型进行轻量级微调的场景,特别是当模型非常大,而可用于训练的资源有限时。

    缺点:鲁棒性不够好,模型的结果严重依赖于前缀的质量(举一个不是很恰当的例子就是:网络本身就没这些只是,你非得加前缀让他说,这怎么能说出来?)

简单来说LoRA就是通过引入两个低秩参数化更新矩阵来减少参数量,我的理解是把参数量降维(变少)

  • 问题描述:

    假设一个网络的所有参数W,维度是d * k,微调它的梯度∆W维度也是是d * k,也就是说W和∆W的参数量是一样的,这就给我们训练参数量太大的网络带来困难。同时,如果有不同的下游任务,则需要对每个下游任务都训练出一个这样的∆W,因此这种方式的fine-tune是非常昂贵的。

  • 解决方案:

 

针对这个问题,文章提出将∆W进行低秩分解,分解成两个矩阵A(维度是d * r)、B(维度是r * k),其中r远远小于d和k的最小值,然后我们就可以计算∆W和AB的参数量:

  • 应用:

    需要对大模型所有参数进行微调,但不显著增加计算量的场景

  • 优点:

    训练成本降低,训练速度提升,针对不同任务只需训练针对不同任务的AB即可

  • 缺点:

    以精度换速度

  • QLoRA总结

在LoRA的基础上,添加了NF4的数据压缩(信息理论中最有的正太分布数据量化数据类型),进一步减少了显存和内存的消耗;然后添加一组可学习的LoRA权重,这些权重通过量化权重的反向传播梯度进行调整。

块状 k-bit 量化:既压缩了数据,又解决了异常值(我理解为噪声)对数据压缩的影响。我理解为:数据分布不是线性的,因此利用块量化(类似分治?)进行数据压缩。

  • 优点:

    使用NF4量化预训练权重,减少内存。计算梯度的时候再反量化?量化和反量化的或称会不会带来时间消耗?

    双重量化:虽然NF4的数据的内存消耗很小,但是将量化常数也占用了内存。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/687996.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

护眼台灯和普通台灯差别很大吗?专业护眼灯品牌有哪些?

随着科技的不断演进,台灯的设计也日益脱胎换骨,从曾经的笨重造型转变为如今轻盈雅致的外观。它们的功能同样经历了多样化的革新,变得更加人性化和便捷。作为学习、阅读和办公环境中不可或缺的照明工具,台灯所提供的光线舒适度至关…

寻找最大价值的矿堆 - 矩阵

系列文章目录 文章目录 系列文章目录前言一、题目描述二、输入描述三、输出描述四、Java代码五、测试用例 前言 本人最近再练习算法,所以会发布一些解题思路,希望大家多指教 一、题目描述 给你一个由’0’(空地)、‘1’(银矿)、‘2’(金矿)组成的地图…

blender 制作圆角立方体模型,倒角实现。cocos 使用。导出fbx

图片: 步骤: 1.首先创建一个立方体,这里可以使用默认的立方体。 2.在属性面板选择如“扳手”图标一样的修改器工具。 3.设置数量和段数实现圆角的圆滑效果,没有菱角。 保存导出相关的教程:

2024HW Linux应急响应基础学习

首先展示关于Linux的关键目录,这是应急响应查看的关键: 常用命令 top //查看进程资源的占用情况 ps -aux //查看进程 直接写ps aux也可以 netstat -antpl //查看网络连接 ls -alh /proc/pid //查看某个pid对应的可执行程序 pid记得修改 lsof /…

吴恩达2022机器学习专项课程C2(高级学习算法)W1(神经网络):Lab01 神经元和层

目录 导入Tensorflow的库无激活函数 vs 有激活函数?1.无激活函数2.有激活函数 无激活函数的神经元-回归/线性模型1.创建训练集散点图2.创建层3.层输入4.获取层参数5.层参数的形状6.手动设置层的参数7.层计算vs线性回归模型计算 有激活函数sigmoid的神经元1.创建训练…

【FX110】台湾修改洗钱法已加强对虚拟资产的监管

台湾正在通过修订《洗钱控制法》加强其反洗钱法规,使其法律与亚太反洗钱组织 (APG) 制定的国际标准保持一致。 此次修正案的重点是将虚拟资产和虚拟资产服务提供商置于台湾反洗钱制度的严格监管之下。修订后的法律对“虚拟资产”和“虚拟资产服务提供商”增加了明确…

CH340 RTS DTR引脚编程驱动OLED

我们常用的四线OLED就是IIC通信的,那么我们能不能用ch340来模拟一个IIC呢,当然可以我移植了中景园的OLED驱动,接下来就是见证奇迹的时刻,成功点亮,受限于CH340的引脚速度,模拟IIC的通信速度只有3k左右 注意…

centos7.9系统rabbitmq3.8.5升级为3.8.35版本

说明 本文仅适用rabbitmq为RPM安装方式。 升级准备 查看环境当前版本: # cat /etc/redhat-release CentOS Linux release 7.9.2009 (Core) # rabbitmqctl status Status of node rabbitmq01 ... RuntimeOS PID: 19333 OS: Linux Uptime (seconds): 58 Is under …

React 第三十一章 虚拟DOM

面试题:什么是虚拟DOM?其优点有哪些? 标准且浅显的答案 虚拟dom本质上就是一个普通的 JS 对象,用于描述视图的界面结构 虚拟 DOM 最早是由 React 团队提出来的,因此 React 团队在对虚拟 DOM 的定义上面有绝对的话语权。…

bitmap requires a valid src attribute

关于作者:CSDN内容合伙人、技术专家, 从零开始做日活千万级APP。 专注于分享各领域原创系列文章 ,擅长java后端、移动开发、商业变现、人工智能等,希望大家多多支持。 未经允许不得转载 目录 一、导读二、概览三、问题记录四、 推…

深度剖析Comate智能产品:科技巧思,实用至上

文章目录 Comate智能编码助手介绍Comate应用场景Comate语言与IDE支持 Comate安装步骤Comate智能编码使用体验代码推荐智能推荐生成单测注释解释注释生成智能问答 Comate实战演练总结 Comate智能编码助手介绍 市面上现在有很多智能代码助手,当时互联网头部大厂百度也…

如何看待云计算的第三次浪潮?

如何看待云计算的第三次浪潮? 来自云栖大会的演讲你如何看待云计算的第三次浪潮?云计算的第三次浪潮将会给社会带来怎样的变革?开发者在云计算的第三次浪潮中将会有哪些机遇和挑战?机遇挑战 来自云栖大会的演讲 在2023云栖大会上…