人工智能大语言模型起源篇,低秩微调(LoRA)

news/2024/12/15 10:38:51/文章来源:https://www.cnblogs.com/jellyai/p/18607741

上一篇: 《规模法则(Scaling Law)与参数效率的提高》

序言:您在找工作时会不会经常听到LoRA微调,这项技术的来源就是这里了。

(12)Hu、Shen、Wallis、Allen-Zhu、Li、L Wang、S Wang 和 Chen 于2021年发表的《LoRA: Low-Rank Adaptation of Large Language Models》,https://arxiv.org/abs/2106.09685

现代的大型语言模型在大数据集上进行预训练后,展现了突现能力,并且在多种任务中表现优异,包括语言翻译、总结、编程和问答。然而,如果我们希望提升变换器在特定领域数据和专业任务上的能力,微调变换器是非常值得的。

低秩适配(LoRA)是微调大型语言模型的一种非常有影响力的方法,它具有参数高效的特点。虽然还有其他一些参数高效的微调方法(见下文的综述),但LoRA特别值得一提,因为它既优雅又非常通用,可以应用于其他类型的模型。

虽然预训练模型的权重在预训练任务上是全秩的,但LoRA的作者指出,当预训练的大型语言模型适配到新任务时,它们具有低“内在维度”。因此,LoRA的核心思想是将权重变化(ΔW)分解成低秩表示,这样可以更高效地使用参数。

                                  LoRA 的示例及其性能来自 https://arxiv.org/abs/2106.09685。

(13)Lialin、Deshpande 和 Rumshisky 于2022年发表的《Scaling Down to Scale Up: A Guide to Parameter-Efficient Fine-Tuning》,https://arxiv.org/abs/2303.15647

现代的大型语言模型在大数据集上进行预训练后,展现了突现能力,并且在多种任务中表现优异,包括语言翻译、总结、编程和问答。然而,如果我们希望提升变换器在特定领域数据和专业任务上的能力,微调变换器是非常值得的。本文综述了40多篇关于参数高效微调方法的论文(包括前缀调优、适配器、低秩适配等流行技术),旨在使微调过程(变得)更加高效,尤其是在计算上。


来源:https://arxiv.org/abs/2303.15647

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/853175.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

群晖Lets Encrypt证书申请

注意本文时效性:2024.9.23 引言 为了保证SSL证书的权威性和安全性,Lets Encrypt 会验证您对域名的控制权。 申请 Lets Encrypt 证书有以下的验证控制权的方式:Web验证:通过在http的有权威的目录下创建一个验证文件以验证对服务器的控制权 Dns验证:通过在 DNS Record 中添加…

《计算机基础与程序设计》第十二周学习总结

学期(如2024-2025-1) 学号(如:20241300) 《计算机基础与程序设计》第十二周学习总结 作业信息这个作业属于哪个课程 <班级的链接> 2024-2025-1-计算机基础与程序设计这个作业要求在哪里 <作业要求的链接> 2024-2025-1计算机基础与程序设计第十二周作业)这个作…

读数据保护:工作负载的可恢复性14备份和恢复数据库

备份和恢复数据库1. 给采用传统方式交付的数据库制作备份 1.1. 某个数据库是新还是旧,跟该数据库是不是传统数据库没有必然的联系,真正的决定因素在于,这个数据库是不是运行在你所管理的服务器或虚拟机里1.1.1. 如果是,那就可以归入按照传统模型来交付的数据库1.1.2. 如果不…

2024北京多校联训游记

乡下人进城——开了眼了Day \(-\infty\) NOIP考的十分炸裂,一道题都没做出来,结果下来 \(40min\) 就切掉了第 \(2\) 题???这时 \(hfu\) 通知有意向的同学可以去参加在北京的多校联训。经过一番思想斗争后,还是决定去参加一下,毕竟技多不压身,且基础知识也整理的差不多了…

[CSP2020-J4] 直播获奖

题面 题目描述 NOI2130 即将举行。为了增加观赏性,CCF 决定逐一评出每个选手的成绩,并直播即时的获奖分数线。本次竞赛的获奖率为 $w%$,即当前排名前 $w%$ 的选手的最低成绩就是即时的分数线。 更具体地,若当前已评出了 $p$ 个选手的成绩,则当前计划获奖人数为 $\max(1, \…

LLM大模型推理优化示例分析

Large Transformer Model Inference Optimization 人工智能芯片与自动驾驶

遥感全景锐化的内容自适应非局部卷积

遥感全景锐化的内容自适应非局部卷积目前,基于机器学习的遥感泛变方法发展迅速。然而,现有的pansharpening方法往往没有充分利用非局部空间中的区分区域信息,从而限制了方法的有效性,并导致冗余的学习参数。介绍了一种所谓的内容自适应非局部卷积(CANConv),这是一种专为…

渗透测试-前端加密分析之AES

本文是高级前端加解密与验签实战的第3篇文章,本系列文章实验靶场为Yakit里自带的Vulinbox靶场,本文讲述的是绕过前端 AES(CBC) 和 AES(ECB) 加密。前言 本文是高级前端加解密与验签实战的第3篇文章,本系列文章实验靶场为Yakit里自带的Vulinbox靶场,本文讲述的是绕过前端 AE…

python内置函数permutations

what permutations是python的itertools模块的一个函数,可以用来求可迭代对象的全排列 itertools.permutations(iterable, r)iterable:可迭代对象 r:全排列的长度 return:tuple后面r的作用解释一下,加入iterable中元素有n个,r=m,就相当于先在n中选m个,再对m个进行全排列…

python内置函数map

what map是python提供的一个内置函数,用于对一个序列中每个元素,或者对多个序列中对应元素进行操作。 why 函数式编程范式的一种工具,可以代替一些循环操作。同时map操作在小数据100W即1e7的时候操作会比for循环和列表表达式快。 但是当继续增大数据量就会显出劣势,不过在处…

服务器信息

引子:作为信息收集篇的第一篇文章,本篇主要讲测试者在面对服务器时该收集什么样的信息,以及这些信息的收集方法。附:完整笔记目录~ ps:本人小白,笔记均在个人理解基础上整理,若有错误欢迎指正! 一、服务器信息引子:作为信息收集篇的第一篇文章,本篇主要讲测试者在面对…

01背包+多状态dp

01背包+多状态dp 前置知识 dp的四步法(绝对不是水字数):确定状态 确定答案 确定状态转移方程 确定初始状态和边界P7074 [CSP-J2020] 方格取数 题目中所给出的状态是这样的(图一):但是这样就会导致一个问题, \(i\) 值会访问空的地方,所以这里会有两种方案:左上角走到右…