论文阅读:Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

news/2025/1/9 3:48:19/文章来源:https://www.cnblogs.com/zinger/p/18635311

Transformer可以接收一整段序列,然后使用self-attention机制来学习它们之间的依赖关系,但其在语言建模时受到固定长度上下文的限制(固定长度的输入、绝对位置编码的限制、注意力机制的计算复杂度)。
Transformer-XL以此为基础,引入一个片段级递归机制和一种新的位置编码方案,从而可以在不破坏时间连贯性的情况下实现超出固定长度的学习依赖性

Vanilla Transformer 语言模型


标准的Transformer模型具有固定的输入长度限制,通常通过设置一个最大序列长度,以适应模型的内存和计算能力。当处理超过这个长度的文本时,Vanilla Transformer 通常将文本切分为多个独立处理的段落,每个段落独立进行模型训练和推理,而不共享跨段落的上下文信息(1.a)。这意味着,对于跨段落或跨文本的语义关系和依赖,模型无法充分捕捉,从而影响其对整体内容的理解和生成的连贯性。
在评估阶段如需处理较长的输入,该模型会在每一步中将输入向右移动一个字符,以此实现对单个字符的预测(1.b)。

具有状态重用的段级循环


Transformer-XL与Vanilla Transformer思路一致,依旧使用分段机制,但Transformer-XL引入了段与段之间的循环机制,使得当前段在建模的时候能够利用之前段的信息来实现长期依赖性。
在训练期间,前一个段计算的隐藏状态序列被固定并缓存,以便在模型处理下一个新段时作为扩展上下文重用(2.a中的绿线)。将段内上下文扩展上下文进行拼接,作为扩展后的上下文隐藏状态。这种额外的输入允许网络利用历史记录中的信息,从而能够对长期依赖关系进行建模并避免上下文碎片化。

相对位置编码

如果每个段直接使用Transformer中的位置编码,就会出现不同段的第i个位置具有相同的位置编码,但不同段对当前段的重要性不同,因此应当区分。
在Transformer中,\(q^T_i\)\(k_j\)之间的注意力分数为:

\[A = q^T_ik_j = (W_q(E_{x_i}+U_i))^T·(W_k(E_{x_j}+U_j)) \]

展开之后就是:

Transformer-XL使用词之间的相对距离进行位置编码,引入可变参数\(u\)\(v\)作为全局偏置向量

  1. 绝对位置向量\(U_j\)转换为相对位置向量\(R_{i-j}\),这是固定的编码向量,不需要学习。
  2. 引入可训练参数\(u\)来替换(3)中的\(U_i^TW_q^T\),表示内容全局偏置向量,引入可训练参数\(v\)来替换(4)中的\(U_i^TW_q^T\),表示位置相关的全局偏置向量。
  3. 同时将权重变换矩阵\(W_k\)转换为\(W_{k,E}\)(内容相关)和\(W_{k,R}\)(位置相关)。

在新的参数化下,(a)表示基于内容的寻址;(b)表示基于内容的位置偏差;(c)表示全局内容偏差;(d)表示全局位置偏差

整体计算公式

具有单个注意力头的 N 层 Transformer-XL 的计算过程:

  • 其中,\(\tau\)表示第几段,\(n\)表示第几层,\(SG(·)为停止梯度\)\(h_{\tau }^0 := E_{s_{\tau}}\)为词嵌入序列。
    ————————————————————

论文链接:https://arxiv.org/pdf/1901.02860

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/862829.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

WPS 关闭个性化推荐

WPS>打开文件位置>打开第一个文件夹>继续打开文件夹>找到ksomisc.exe工具并双击打开>高级>功能定制:关闭个性化推荐I have a dream : Sandy beach B-J-N.

搭建一个简单的UVM验证平台

转载自 https://zhuanlan.zhihu.com/p/713891980 一. UVM 方法学简介 UVM(Universal Verification Methodology),又称作通用验证方法学。它起源于OVM(Open Verification Methdology),是由Cadence,Mentor和Synopsys联合推出的主流验证方法学;UVM方法学可以帮助我们搭建…

react学习之antd

antd为 Web 应用提供了丰富的基础 UI 组件,我们还将持续探索企业级应用的最佳 UI 实践。它最初是基于 React 的组件库,但随着技术的发展,现在也提供了基于 Vue.js 的版本——Antd Vue。无论你是 React 还是 Vue 的开发者,都可以利用 Antd 来丰富你的 Web 应用界面。antd 为…

windos server添加新用户

以Windows Server 2022举例子(该机器本身是一台轻量应用服务器)。 首先添加新用户:以管理员身份登录,选择“更改账户设置”: 选择 “其他用户” --> “将其他人添加到这台电脑”: 选择 “用户”: 单击鼠标右键,选择 “新用户”: 填写要创建的新用户信息: 选…

LLM2Vec: 解锁大语言模型的隐藏能力

LLM2Vec:重新定义大语言模型在自然语言处理中的应用一种名为 ** LLM2Vec ** 的新方法正在改变我们对大语言模型(LLMs)在自然语言处理(NLP)中的使用方式。 研究人员提出了一种创新方法,将通常仅用于生成文本的大型语言模型转化为更强大的文本理解和组织工具。这项技术有可…

将未来帧中的点 pts​ 对齐到当前帧

已知当前的rt矩阵,和未来下一帧的rt矩阵和未来下一帧的5个点pts,求把pts对齐到当前帧。import numpy as npdef align_points(rt_current, rt_future, pts_future):# 计算从未来帧到当前帧的相对变换矩阵rt_relative = np.linalg.inv(rt_current) @ rt_future# 将点转换为齐次…

基于甘特图的任务调度与跟踪工具

在当今复杂的项目管理领域,工具的种类繁多且功能各异。常见的项目管理工具包括禅道、Trello、Jira、Microsoft Project等。这些工具在不同层面上助力项目管理,从任务分配到进度跟踪,从团队协作到资源管理。甘特图作为一种直观且有效的任务调度与跟踪工具,在众多项目管理工具…

2024年项目管理软件的创新突破:数据分析与自动化的结合

项目管理软件在现代企业中的作用愈加重要,尤其是在快速变化和竞争激烈的环境中。随着技术不断发展,项目管理软件也在不断创新,以适应新的工作方式和需求。2024年,项目管理软件将不仅仅是一个任务管理工具,而是一个集成化平台,支持团队协作、数据分析、资源优化等多项功能…

分布匹配蒸馏:扩散模型的单步生成优化方法研究

扩散模型在生成高质量图像领域具有显著优势,但其迭代去噪过程导致计算开销较大。分布匹配蒸馏(Distribution Matching Distillation,DMD)通过将多步扩散过程精简为单步生成器来解决这一问题。该方法结合分布匹配损失函数和对抗生成网络损失,实现从噪声图像到真实图像的高效…

服务器负载过高,硬件升级后仍无法访问网站

当您的服务器因负载过高提示需要升级,且在完成硬件升级后仍然无法访问网站时,可能是由于多个方面的问题导致的。为了确保网站能够正常运行,请按照以下步骤进行排查和优化: 1. 检查Web服务状态 首先,确保Web服务器(如Apache、Nginx)正在运行。通过SSH登录到服务器,使用命…

配置无误的网站无法访问 - 云服务器问题

当遇到配置看似正确却仍无法访问的情况时,可以从以下几个方面进行排查:检查80端口状态:首先确认服务器的80端口是否畅通。使用命令行工具如netstat或ss来查看端口监听情况,确保Nginx确实在监听80端口。如果发现端口未被占用,可能是因为Nginx服务未启动或配置文件中指定了错…

如何解决 Windows 服务器被平台强制修改密码后无法远程登录的问题?

,Windows 服务器被平台强制修改了远程桌面密码,导致无法通过远程桌面或控制台登录。以下是详细的排查和解决方案:重置为初始密码:平台通常会将服务器的远程桌面密码重置为初始密码。您可以登录到服务商的后台管理系统,查找并获取初始密码。 如果您忘记了初始密码,可以通过…