谷歌泰坦:Transformer之后的AI时代?

news/2025/1/23 21:08:42/文章来源:https://www.cnblogs.com/jellyai/p/18688626

介绍

2017年,谷歌发布了一篇具有革命性意义的论文,题为《Attention is All You Need》(注意力是你所需要的一切)。这篇论文引发了我们今天所经历的AI革命,并引入了Transformer模型。Transformer已经成为如今几乎所有顶级大型语言模型(LLM)的核心架构。

Transformer的优势与成本

Transformer的强大主要归功于其注意力机制。面对一个令牌序列时,Transformer能够一次性处理整个序列,利用注意力机制捕捉整个序列中的依赖关系,从而提供高质量的输出。然而,这种强大能力的代价是:输入序列长度的二次方复杂度。这一成本限制了Transformer在处理更长序列时的扩展能力。

循环模型

另一方面,循环模型(Recurrent Models)不存在这种二次方复杂度的问题。它们并非一次性处理整个序列,而是逐步进行,将序列中的数据压缩到一个被称为“隐藏状态”的压缩记忆中。这种线性复杂度提升了循环模型的可扩展性。然而,循环模型的性能并未能超越Transformer。

引入泰坦模型

本文我们将探讨谷歌研究团队的一篇新论文《Titans: Learning to Memorize at Test Time》(泰坦:在测试时学习记忆),它提出了一种新的模型架构——泰坦(Titans)。该模型在缓解Transformer二次方复杂度问题的同时,显示出了令人期待的性能。泰坦模型的设计灵感来源于人类大脑的记忆工作方式。论文中提到一句有趣的话:“记忆是一个基本的心理过程,也是人类学习不可分割的组成部分。没有一个正常运作的记忆系统,人类和动物将被限制在基础的反射和刻板行为中。”

深度神经长期记忆模块

泰坦论文的一项关键贡献是深度神经长期记忆模块。首先,我们来理解什么是长期记忆模块,然后探讨它如何整合到泰坦模型中。

与循环神经网络中将记忆编码为固定向量不同,神经长期记忆模块是一个神经网络模型,包含多层结构,将过去的抽象历史编码到模型参数中。训练这种模型的一种方法是让模型记住其训练数据。然而,记忆化(memorization)已知会限制模型的泛化能力,并可能导致性能下降。

记忆化但不过拟合

研究人员设计了一种独特的方法,创建了一个能够记忆但不会过拟合于训练数据的模型。该方法借鉴了人类记忆的类比。当我们遇到令人意外的事件时,我们更有可能记住这个事件。神经长期记忆模块的学习过程正是为了反映这一点。

建模“惊讶”

研究人员如何建模“惊讶”,可以通过下图定义进行理解。

MtM_tMt 表示在时间 ttt 的神经长期记忆模块。它通过前一时间步的参数和一个“惊讶”元素(建模为梯度)进行更新。如果梯度较大,说明模型对输入更“惊讶”,从而导致模型权重更显著的更新。然而,这种定义并不完美,因为模型可能会错过“惊讶”发生后紧接着的重要信息。

建模“过去的惊讶”

从人类的角度来看,一个令人惊讶的事件不会长期持续令人惊讶,但它仍然是难忘的。我们通常会适应令人惊讶的事件。然而,这个事件可能足够令人惊讶以吸引我们的注意力,贯穿更长的时间段,从而记住整个时间段。

改进后的建模定义包括了“过去的惊讶”。现在,我们通过前一权重状态和一个惊讶组件(记作 StS_tSt)来更新神经长期记忆权重。惊讶组件现在是随着时间测量的,由前一惊讶(有衰减因子)和当前瞬间的惊讶组成。

建模“遗忘”

处理非常长的序列(例如,数百万个令牌)时,管理哪些过去信息应被遗忘是至关重要的。从下图的定义中可以看到最终的建模。这些定义与上一部分的定义相同,只是我们新增了一个自适应遗忘机制,记作 ααα,也称为“门控机制”。这允许记忆遗忘不再需要的信息。

损失函数

损失函数通过上述方程定义。损失的目标是建模关联记忆,通过将过去的数据存储为键值对,并教会模型在键和值之间建立映射。与Transformer类似,线性层将输入投射为键和值。然后,损失函数衡量记忆模块学习键值关联的效果。

需要澄清的是,模型不会一次性处理整个序列,而是逐步处理,在权重中累积记忆信息。

泰坦架构 #1 — 记忆作为上下文(MAC)

论文提出了几种不同的架构。第一种称为“记忆作为上下文”(MAC)。下图展示了该架构:

模型由三个组件组成:持久记忆、核心和上下文记忆。对于一个长输入序列,我们将其分割成较小的序列。图中的“核心”组件实际上是一个分块的序列。

持久记忆

我们通过向序列的开头添加可学习的与数据无关的权重来整合持久记忆。这实际上是可学习的令牌,存储全局信息,不受输入影响。

上下文记忆

上下文记忆依赖于上下文,由深度神经长期记忆模块组成。我们通过神经长期记忆模块的前向传播,将输入分块序列作为输入,检索记忆令牌。

核心组件

核心组件将所有内容结合在一起,利用一个注意力模块,输入包含持久记忆、上下文记忆和输入本身的信息扩展序列。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/873857.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025.1.23冠词

错误分析: 对于冠词知识点掌握不透彻 需掌握知识点: ‌冠词‌是英语语法中的重要概念,主要分为不定冠词(a/an)和定冠词(the),此外还有零冠词。冠词本身不能单独使用,也没有词义,主要用于帮助指明名词的含义。‌ 不定冠词(a/an) ‌用法‌:不定冠词用于单数可数名词…

2025多校冲刺省选模拟赛7

2025多校冲刺省选模拟赛7\(T1\) A. 三色卡(card) \(0pts\)如果存在一个小矩形和大矩形的大小相同,此时另外两个矩形可以任意放,贡献是容易计算的。否则至少需要一个小矩形覆盖大矩形的两个角,通过交换长、宽钦定完全覆盖行的矩形比完全覆盖列的矩形的数量多。完全覆盖行的矩…

重试机制与 CompletableFuture 拓展

重试机制与 CompletableFuture 拓展 禁止转载。 本文旨在讨论重试机制的特点和策略,分析常用重试类库的实现,讨论为 CompletableFuture 添加重试机制的方法。文章首发同名公众号,欢迎关注。 重试示例 以下是一个常见的使用异步重试的例子,当我们需要重试功能时,只需调用 r…

DL00765-光伏故障检测高分辨率无人机热红外图像细粒度含数据集4000+张

光伏发电作为清洁能源的重要组成部分,近年来得到了广泛应用。然而,随着光伏电站规模的扩大,光伏组件在运行过程中可能会出现各种故障,如热斑、遮挡、接线盒故障等。这些故障不仅会影响光伏电站的发电效率,还可能导致更严重的安全隐患。因此,准确、及时地检测并分类这些故…

VMware安装RHEL7.9

VMware安装 可以选择官网下载或者使用其他网盘资源下载。 需要注意的是,现在官网下载需要注册其账号。 下面是安装的详细步骤: 1.找到文件所在路径。双击打开之后,可能会出现环境初始化重启。重启即可。然后再次双击打开此软件。2.勾选《我接受许可协议中的条款》。3.选择安…

【二叉树】用数组给出二叉树层序遍历序列,建树以及遍历问题

传递悄悄话层序遍历数组形式的下标如下#include <algorithm> #include <cstring> #include <iostream>using namespace std;const int N = 1010, M = N * 2;int n; int h[N], e[M], ne[M], idx; int v[N], dist[N]; bool st[N];void add(int a, int b) {e[id…

关闭 Visual Studio 2022 的 Browser Link 功能

http://blog.tool90.com/330.html什么是 Browser Link 功能? Browser Link 是 Visual Studio 的一个功能,它允许 Visual Studio 与正在运行的 ASP.NET 应用程序建立一个实时通信通道。这意味着您可以在不刷新浏览器的情况下立即查看代码更改的效果。这个功能在进行前端开发时…

2025dsfz集训Day11:数位DP、状态压缩DP、单调队列优化DP

Day11:数位DP、状压DP、单调队列优化DP 经典题目:AccodersP2195 |【一本通提高数位动态规划】Amount of Degrees 题意: 求出区间 \([x,y]\) 中满足下面条件的所有的数:这个数 \(x\) 可以用 \(k\) 个不相等的 \(b\) 的整数幂之和。 首先这个区间是满足区间减法的。因此我们可…

PO报错

这个报错是报文结构不匹配导致,找了好久的问题--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------…

2025dsfz集训Day11: 单调队列优化DP

单调队列优化DP 单调队列队列是单调的,递增或递减 只能在队首或者队尾进行操作 队列中维护所有在窗口中的元素,有一些元素是没用的,以区间最大值为例:所以从左到右尝试加入队列,弹出队尾比当前数更小的元素,弹出队首已经出窗口的元素,再队尾压入当前数 这样,队首就是窗口…

必应搜索中,当地区设置为美国时出现的异常(未解决)

描述 在设置中,设置地区。加载时,会警告如下: An iframe which has both allow-scripts and allow-same-origin for its sandbox attribute can escape its sandboxing.这个大致的意思是,allow-scripts允许运行脚本,allow-same-origin视为和宿主网页同源。 具体的影响不清…

做抖音矩阵是否需要很多台手机?

做抖音矩阵是否需要很多台手机?做抖音矩阵不一定要很多台手机,可依据不同情况选择合适方式: 使用多台手机 优势:物理隔离确保账号间完全独立,极大降低因设备关联导致的风险。比如,若一台手机上的账号因违规操作被封,不会影响其他手机上的账号。同时,多台手机能同时进行…