线性注意力机制全新升级!性能显著提高,速度、精度更优

线性注意力机制通过对传统注意力机制中的Softmax操作进行线性化处理,可以提高Transformer模型的并行性能、降低复杂度,在计算效率、模型表达能力等方面都具有优势。

作为一种常用有效的优化方法,线性注意力机制可以在保证模型性能的同时提高计算效率。而近期,有关线性注意力机制的研究有了新的成果,其中最具代表的就是代理注意力、TransNormerLLM。

  • Agent Attention:Softmax注意力与线性注意力的结合,创造了一种既高效又强大的新型注意力机制。这种结合体现在所谓的“代理注意力”中,它通过两个常规的Softmax注意力操作的组合,实现了高性能和高效率的融合。

  • TransNormerLLM:第一个基于线性注意力的大模型,完全抛弃了基于 Softmax 的注意力机制,而是使用了新提出的线性注意力。

除以上两种创新以外,还有一些值得关注的线性注意力机制相关成果,都是前沿最新,我也帮同学们列出了部分成果的方法和创新点,大家可以借鉴学习,目前共有9篇,附上开源代码方便复现。

论文以及开源代码需要的同学看文末

Agent Attention

Agent Attention: On the Integration of Softmax and Linear Attention

方法:论文提出了一种新颖的注意力机制,Agent Attention,用于在计算效率和表示能力之间取得良好的平衡。Agent Attention引入了一组额外的代理令牌A到传统的注意力模块中,通过代理令牌A从键K和值V中聚合信息,并将信息广播回查询令牌Q。Agent Attention可以显著提高计算效率,同时保持全局上下文建模能力。

创新点:

  • 作者引入了一种新的注意力范式,称为Agent Attention,它是一种高效的注意力机制,能够在计算效率和表示能力之间取得良好的平衡。

  • Agent Attention通过引入额外的代理令牌,将传统的Softmax注意力与线性注意力无缝集成,既具有高表达能力又具有低计算复杂度。

  • 通过在各种视觉Transformer模型和不同的视觉任务中进行广泛实验证明了Agent Attention的有效性,特别是在高分辨率场景下。

  • Agent Attention还可以直接应用于预训练的大规模扩散模型,加速图像生成过程并显著提高生成质量。

TransNormerLLM

TransNormerLLM: A Faster and Better Large Language Model with Improved TransNormer

方法:论文介绍了一种改进的TransNormer模型——TransNormerLLM,该模型在准确性和效率方面均优于传统的Transformer模型。作者还提出了一种原始推理算法,并对GLA结构的激活函数进行了实验。此外,作者还对模型并行性和系统优化技术进行了评估,包括它们对训练速度和上下文长度的影响。

创新点:

  • TransNormerLLM是一种改进的TransNormer,专为LLMs定制。

  • TransNormerLLM在准确性和效率方面始终优于Transformers。

  • TransNormerLLM在位置编码、门控机制、激活函数、归一化函数和闪电注意力方面进行了修改和创新,这些修改共同促成了TransNormerLLM的出色性能,使其成为最先进语言模型的有希望选择。

  • TransNormerLLM的基准结果表明,具有3.85亿、10亿和70亿参数的模型不仅与当前领先的基于Transformer的大型语言模型的性能相匹配,而且具有更快的推理速度。

其他创新方法

Lightning Attention-2: A Free Lunch for Handling Unlimited Sequence Lengths in Large Language Models

方法:论文提出了Lightning Attention-2,这是第一个能够实现线性注意力的理论计算优势的线性注意力实现。为了实现这一目标,作者采用了切分和平铺技术的思想,分别处理线性注意力计算中的内部块和间隔块组件。具体而言,作者利用传统的注意力计算机制处理内部块,并对间隔块应用线性注意力核技巧。通过前向和后向过程中的平铺技术,充分利用GPU硬件的优势。

创新点:

  • Lightning Attention-2在计算速度上具有显著优势,这归功于其创新的内部-外部分离策略。

  • Lightning Attention-2相比其他机制具有更小的内存占用,而不会影响性能。

FLatten Transformer: Vision Transformer using Focused Linear Attention

方法:论文提出了一种新颖的聚焦线性注意力模块。通过从关注能力和特征多样性的角度解决以前线性注意力方法的局限性,作者的模块实现了高效性和表达能力的令人印象深刻的结合。在图像分类、目标检测和语义分割等广泛实验中,作者的模块可以广泛应用于各种视觉Transformer,并在计算效率和模型性能之间取得更好的平衡。

创新点:

  • Focused Linear Attention:通过对线性注意力的性能下降进行了详细分析,从关注能力和特征多样性两个方面提出了改进方法,解决了线性注意力的性能问题,实现了高效性和表达能力。

  • Vision Transformer:在计算机视觉领域引入了Transformer和自注意机制,但由于计算复杂度高,直接应用于视觉任务存在困难。先前的研究从多个角度尝试解决这个问题,如减少输入分辨率、采用稀疏注意力模式、逐渐降低特征分辨率等。这些方法在一定程度上解决了计算复杂度的问题,但仍存在一些限制。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“线性注意力”获取论文+代码

码字不易,欢迎大家点赞评论收藏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/473612.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GIS使用 RUSLE 方法绘制土壤侵蚀风险图

侵蚀是指土壤在水或风的作用下离开其所在位置,它分为两种:自然侵蚀和加速侵蚀。水土流失实际上是一个自然过程,因此形成了肥沃的三角洲平原,但在人类活动的影响下,这一过程加速,水土流失超过了应有的程度。因此,农业生产率下降,生产成本上升,水坝寿命缩短,水质下降,…

第10章 JDBC

10.1 什么是JDBC JDBC的全称是Java数据库连接(Java Database Connectivity),它是一套用于执行SQL语句的Java API。应用程序可通过这套API连接到关系型数据库,并使用SQL语句完成对数据库中数据的新增、删除、修改和查询等操作。 …

C++模板详解 —— 函数模板与类模板

C模板详解 泛型编程函数模板函数模板的概念函数模板的原理 函数模板的实例化函数模板的匹配原则类模板类模板的定义格式类模板的实例化 泛型编程 如果让你编写一个函数,用于两个数的交换。在C语言中,我们会用如下方法: void Swapi(int* p1,…

GEE使用 Sentinel-1 SAR影像 和 Otsu 方法绘制洪水地图

洪水是世界上最常见、破坏性最大的自然灾害之一,造成了巨大的生命和财产损失。此外,随着气候变化的影响,近年来,洪灾变得更加频繁和不可预测。为了最大限度地减少生命和财产损失,必须迅速发现洪水蔓延的情况,并及时采取必要的干预措施。洪水蔓延探测大多使用光学传感器或…

【大模型 数据增强】LLMAAA:使用 LLMs 作为数据标注器

【大模型 数据增强】LLMAAA:使用 LLMs 作为数据标注器 提出背景算法步骤1. LLM作为活跃标注者(LLMAAA)2. k-NN示例检索与标签表述化3. 活跃学习策略4. 自动重权技术 LLMAAA 框架1. LLM Annotator2. Active Acquisition3. Robust Training 总结…

MCU中断控制

目录 一、中断相关基础知识 1、NVIC:嵌套向量中断控制器 2、可屏蔽中断和不可屏蔽中断的区别 3、中断优先级 4、常见特殊中断 二、中断相关寄存器 三、中断使用步骤: 一、中断相关基础知识 1、NVIC:嵌套向量中断控制器 (1) 它是内核的…

Codeforces Round 486 (Div. 3)

目录 A. Diverse Team B. Substrings Sort C. Equal Sums D. Points and Powers of Two E. Divisibility by 25 F. Rain and Umbrellas A. Diverse Team 找出不重复的同时存下下标即可,依次遍历map判断重复最后判断数量即可 void solve(){cin>>n>>…

订餐|网上订餐系统|基于springboot的网上订餐系统设计与实现(源码+数据库+文档)

网上订餐系统目录 目录 基于springboot的网上订餐系统设计与实现 一、前言 二、系统功能设计 三、系统实现 1、用户功能模块的实现 (1)用户注册界面 (2)用户登录界面 (3)菜品详情界面 &#xff08…

【Unity】【VR开发】针对VR项目的优化版Unity Build Settings

【背景】 编辑器中做了功能后,打包后却总会画面不满意,所以到处学习,总结成本篇,希望有用。 【准备】 本篇总结基于Unity 2021 LTS。 模板选择3D(URP) 如果URP不支持所用的部分Assets,那么也可以选择Built-in管线,不过URP肯定画面效果上要胜过Built-in。 HDRP不适用…

12.2K Star,开箱即用后台管理系统

Hi,骚年,我是大 G,公众号「GitHub指北」会推荐 GitHub 上有趣有用的项目,一分钟 get 一个优秀的开源项目,挖掘开源的价值,欢迎关注。 今天推荐一款开源免费且开箱即用的中后台管理系统,完全采用…

YOLO v5项目实战 P5 解决运行detect文件时设置了--view-img但是显示不出来的问题

up主讲的实时显示目标检测后的图片的两种方法: (1)在下面的Terminal中输入下列命令: python detect.py --view-img (2)点击进入右上方的detect的Edit Configurations 然后在这个参数这里输入 --view img…

Spring Resource

java.net.URL 类可用于访问带有各种URL前缀的资源,但是对于访问一些资源还是不够方便。比如不能从类路径或者相对于ServletContext来获取资源。而Spring 的Resource接口,则可以通过类路径等方式来访问资源。 1 Resource接口 图 Resource接口及方法 getI…