【NLP高频面题 - LLM架构篇】旋转位置编码RoPE相对正弦位置编码有哪些优势?

news/2024/11/30 15:48:49/文章来源:https://www.cnblogs.com/fasterai/p/18578519

【NLP高频面题 - LLM架构篇】旋转位置编码RoPE相对正弦位置编码有哪些优势?

重要性:⭐⭐⭐ 💯


NLP Github 项目:

  • NLP 项目实践:fasterai/nlp-project-practice

    介绍:该仓库围绕着 NLP 任务模型的设计、训练、优化、部署和应用,分享大模型算法工程师的日常工作和实战经验

  • AI 藏经阁:https://gitee.com/fasterai/ai-e-book

    介绍:该仓库主要分享了数百本 AI 领域电子书

  • AI 算法面经:fasterai/nlp-interview-handbook#面经

    介绍:该仓库一网打尽互联网大厂NLP算法面经,算法求职必备神器

  • NLP 剑指Offer:https://gitee.com/fasterai/nlp-interview-handbook

    介绍:该仓库汇总了 NLP 算法工程师高频面题


RoPE相对正弦位置编码而言是更好的位置编码方式。一个好的位置编码应该满足以下条件:

  • 每个位置输出一个唯一的编码
  • 具备良好的外推性
  • 任何位置之间的相对距离在不同长度的句子中应该是一致的

RoPE可以更好的解决上面的三个问题。

正弦编码(Sinusoidal)

基于Sinusoidal的位置编码最初是由谷歌在论文Attention is All You Need中提出的方案,用于Transformer的位置编码。具体计算方式如下所示:

其中pos是位置,i表示维度。

  • 具有相对位置表达能力:Sinusoidal可以学习到相对位置,对于固定位置距离的k,PE(i+k)可以表示成PE(i)的线性函数。
  • 两个位置向量的内积只和相对位置 k 有关
  • Sinusoidal编码具有对称性。,即$PE(t+k)PE(t) = PE(t)PE(t-k)$,这表明Sinusoidal编码具有对称性
  • 随着k的增加,内积的结果会直接减少,即会存在远程衰减
    • 正弦编码是否真的具备外推性?实际的Attention计算中还需要与attention的权重W相乘,即 $PE_tT{W}_qkPE$ ,这时候内积的结果就不能反映相对距离

正弦编码是否真的具备外推性?

似乎Sinusoidal只和相对位置有关。但是实际的Attention计算中还需要与attention的权重W相乘,即 $PE_tT{W}_qkPE$ ,这时候内积的结果就不能反映相对距离。正弦编码中真实的q,k向量内积和相对距离之间,没有远程衰减性,如下图所示:

首先,对于RoPE编码任何位置之间的相对距离在不同长度的句子中应该是一致的。

如果两个token在句子1中的相对距离为k,在句子2中的相对距离也是k,那么这两个句子中,两个token之间的相关性应该是一致的,也就是attention_sample1(token1, token2) = attention_sample2(token1, token2)。

可以从旋转矩阵的角度轻松理解此特性。

其次:RoPE编码中q,k向量内积只和相对位置有关

最后,RoPE位置编码具有良好的外推性。

RoPE位置编码:

可以看出,在外推(Extrapolation)时,红色点超出了预训练时的位置编码。

为了解决这个问题,位置线性内插的核心思想是通过缩放位置索引,使得模型能够处理比预训练时更长的序列,而不损失太多性能。

微调少量长文本,位置线性内插就能推理长文本:

另外,RoPE旋转位置编码不是作用在embedding的输入层,而是作用在与Attention的计算中,可以避免在输入中引入噪声。


NLP 大模型高频面题汇总

NLP基础篇

  • 【NLP 面试宝典 之 模型分类】 必须要会的高频面题
  • 【NLP 面试宝典 之 神经网络】 必须要会的高频面题
  • 【NLP 面试宝典 之 主动学习】 必须要会的高频面题
  • 【NLP 面试宝典 之 超参数优化】 必须要会的高频面题
  • 【NLP 面试宝典 之 正则化】 必须要会的高频面题
  • 【NLP 面试宝典 之 过拟合】 必须要会的高频面题
  • 【NLP 面试宝典 之 Dropout】 必须要会的高频面题
  • 【NLP 面试宝典 之 EarlyStopping】 必须要会的高频面题
  • 【NLP 面试宝典 之 标签平滑】 必须要会的高频面题
  • 【NLP 面试宝典 之 Warm up 】 必须要会的高频面题
  • 【NLP 面试宝典 之 置信学习】 必须要会的高频面题
  • 【NLP 面试宝典 之 伪标签】 必须要会的高频面题
  • 【NLP 面试宝典 之 类别不均衡问题】 必须要会的高频面题
  • 【NLP 面试宝典 之 交叉验证】 必须要会的高频面题
  • 【NLP 面试宝典 之 词嵌入】 必须要会的高频面题
  • 【NLP 面试宝典 之 One-Hot】 必须要会的高频面题
  • ......

BERT 模型面

  • 【NLP 面试宝典 之 BERT模型】 必须要会的高频面题
  • 【NLP 面试宝典 之 BERT变体】 必须要会的高频面题
  • 【NLP 面试宝典 之 BERT应用】 必须要会的高频面题
  • ......

LLMs 微调面

  • 【NLP 面试宝典 之 LoRA微调】 必须要会的高频面题
  • 【NLP 面试宝典 之 Prompt】 必须要会的高频面题
  • 【NLP 面试宝典 之 提示学习微调】 必须要会的高频面题
  • 【NLP 面试宝典 之 PEFT微调】 必须要会的高频面题
  • 【NLP 面试宝典 之 Chain-of-Thought微调】 必须要会的高频面题
  • ......

本文由mdnice多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/844163.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PbootCMS授权码怎么申请

PbootCMS的授权较为简单, 登录网站可以免费获取永久授权码免费授权说明: 1、获取域名授权码永久免费,并且永久有效; 2、授权码不需要联网验证,官方服务器故障不会影响使用本系统的任何网站; 3、对本系统授权码离线验证机制有疑问的,可以自行断网测试网站运行情况; 4、获…

js逆向实战之某某查响应数据解密

声明:本篇文章仅用于知识分享,不得用于其他用途 网址:https://www.hanghangcha.com/securities-data 解密逻辑看流量包,响应数据明显是加过密的。第一反应是去搜索interceptors,主要看响应拦截器,两处都没有。搜url关键字,只有一处。打断点,调试一番,发现没有跟解密相…

无法接受到get方法的请求参数,报错404

其实是因为没加注解==加上注解就可以接收到请求参数了:

Input报错“Form elements must have labels: Element has no title attribute Element has no placeholde”

写表单,无需 label 标签,只需给 input 添加 title 或 placeholder 任一属性,即可消除浏览器后台管理的Error~喵~ 项目开发难免会遇到些不解的问题,以下总结的是简化版,重在复现问题,解决问题。 写表单时,如果只是单独写了input元素,发现在后台管理会飘红。感觉很奇怪,…

考研打卡(32)

开局(32) 开始时间 2024-11-30 13:44:59 结束时间 2024-11-30 15:18:42刚才去洗牙,体验了一波新事物嗷,挺新奇的,但是发现有个好大好大的蛀牙啊啊啊啊啊数据结构判定一个有向图是否存在回路除了可以利用拓扑排序方法外,还可以用_____(中国石油大学 2013年) A 求关键路径…

网站公司信息修改,如何在网站中轻松修改公司信息

公司信息是网站的重要组成部分,通过以下步骤可以轻松进行修改:登录后台:打开浏览器,输入网站的后台地址,使用管理员账号登录。进入公司信息管理:在后台左侧菜单栏中选择“内容” -> “公司信息”。 找到需要修改的信息,点击“编辑”。修改公司信息:在编辑页面中,修…

怎么修改公司的网站首页,如何在网站后台或代码中修改公司网站首页

修改公司网站首页可以提升网站的专业性和用户体验。以下是具体步骤:登录后台:如果网站有后台管理系统,使用管理员账号登录。 在后台左侧菜单栏中选择“内容” -> “页面”或“模板管理”。 找到需要修改的首页,点击“编辑”。修改内容:在编辑页面中,修改文本内容、图片…

鸿蒙Next元服务开发详解

之前写过关于元服务的文章,大家对元服务应该也有一定的了解,它是一种更加高效便捷的应用形式,免安装,有独立的入口,说的简单一点就像是把微信小程序放到系统层面,相比微信小程序更加快捷,因为连微信也不用打开了。 今天就分享一下怎么开发一个鸿蒙元服务。创建项目 元服…

浅谈鸿蒙跨平台开发框架ArkUI-X

之前写过使用uniapp的跨平台开发鸿蒙项目,今天分享一下开发体验更友好的跨平台开发框架ArkUI-X。 ArkUI-X看起来像是鸿蒙官方的框架,在DevEco中就可以安装和使用,而且会ArkUI就可以开发安卓和、iOS和鸿蒙三个平台的app,下面简单介绍一下它的用法。 打开DevEco的Preference菜…

20222425 2024-2025-1 《网络与系统攻防技术》实验五实验报告

1.实验内容 Metasploit Framework(MSF)是一款开源安全漏洞检测工具,附带数千个已知的软件漏洞,并保持持续更新。Metasploit可以用来信息收集、漏洞探测、漏洞利用等渗透测试的全流程,被安全社区冠以“可以黑掉整个宇宙”之名。刚开始的Metasploit是采用Perl语言编写的,但是…

String类的特点

1.String类的特点1.java程序中,只要是双引号字符串,就都是String类的对象 如图只有String这一个类有这种特殊的创建对象方法 我们知道,只有对象才可以通过 点什么来调用方法,而图中s.toString等方法都可以调用,所以s就是String的对象 . 2.字符串在创建之后,内容不可更改 …

Mac OS 15苹方字体不可用,怎么办?

缘由今天使用 mac word 写文档发现选 苹方字体 后变成乱码了...解决办法①打开 Spotlight 搜索:字体册①在 字体册 搜索:苹方,并点击下载对应的字体下载完变成黑色(可用)了:打开系统设置:首先,打开您的macOS系统设置。调整语言顺序:在系统设置中搜索“语言”,然后将“E…