Repetition Improves Language Model Embeddings

论文结论:

echo embeddings将句子重复拼接送入到decoder-only模型中,将第二遍出现的句子特征pooling作为sentence embedding效果很好,优于传统方法

echo embeddings与传统embedding方法区别,如图所示:

在这里插入图片描述

Classical embeddings: Feed sentence x to
the language model and pool the contextu-
alized embeddings of sentence x.

Echo embeddings: Feed a prompt such
as “Rewrite the sentence: x, rewritten sen-
tence: x” to the language model and pool
the contextualized embeddings of the sec-
ond occurence of x

为什么会有这样的效果呢?

因为decoder-only架构存在的缺陷:在自回归模型中,由于因果注意力掩码(causal attention mask)的存在,特定输入标记的上下文化标记嵌入(即在句子中特定位置的标记的最后隐藏层激活向量)不能包含来自句子后部标记的信息。这导致了一个问题,即当早期标记在表面上相似但在关键信息上变得不相似时,这些嵌入可能无法适当地确定相似性。

有哪些相关研究?

这篇论文提到了以下几类相关研究:

  • 神经文本嵌入:这些嵌入在信息检索(IR)、语义相似度估计、分类和聚类等现代方法中起着关键作用。例如,文档检索通常利用低维嵌入进行高效查找,通过将查询和文档编码为向量,其中语义关系通过在某个度量空间中的相似性来描述。

  • 掩蔽语言模型与双向注意力:以往的研究主要集中在使用掩蔽语言模型(如BERT)和双向注意力机制来构建嵌入。这些模型通常通过对比学习目标(如InfoNCE或SimCSE)进行训练。

  • 自回归语言模型:最近的研究开始将这些算法扩展到现代自回归语言模型,如LLaMA和Mistral。这些模型在许多任务上是可用的最高质量模型。

  • 零样本嵌入:大多数关于句子嵌入的研究都集中在改进微调上。然而,Jiang等人(2023b)是唯一一篇构建自回归语言模型的零样本嵌入的论文。

  • 对比学习:在自回归语言模型中构建高质量嵌入的一系列论文。例如,Muennighoff(2022)和Zhang等人(2023a)将S-BERT的微调方法应用于GPT作为主干架构。Ma等人(2023)采用了类似的方法,但针对的是LLaMA-2。

  • 提示改进:一些工作提出了包括提示以改进特定任务的嵌入性能。例如,Jiang等人(2022)和Su等人(2022)。

  • 多任务训练目标:一些论文提出了结合多个训练目标和方法。例如,Xiao等人(2023a)和Li等人(2023)。

通过这种方法,作者成功地克服了自回归语言模型在嵌入任务中的一个关键限制,并展示了回声嵌入在实际应用中的潜力。

论文做了哪些实验?

论文中进行了以下几类实验来评估和验证“回声嵌入”(echo embeddings)方法的有效性:

  • 玩具数据实验:通过构建一个简单的控制合成设置,作者测试了回声嵌入是否能够使早期标记捕获有关后续标记的信息。在这个实验中,作者构造了具有相似开头但结尾不同的句子对,并观察了回声嵌入与经典嵌入在区分这些句子时的表现。

  • 零样本设置下的MTEB评估:作者在零样本设置下,使用MTEB(Massive Text Embedding Benchmark)的英语子集对回声嵌入和经典嵌入进行了评估。这包括了多种任务,如分类、聚类、检索、句子相似性(STS)等。

  • 微调设置下的MTEB评估:为了进行公平比较,作者在相同的数据集上对回声嵌入和经典嵌入进行了微调,并报告了结果。这包括了对比先前的基于掩蔽语言模型(MLM)的嵌入方法和基于自回归语言模型的嵌入方法。

  • 不同提示策略的敏感性分析:作者研究了不同的提示策略对零样本MTEB任务性能的影响,并比较了回声嵌入、经典嵌入和摘要方法的敏感性。

  • 不同模型的比较:作者比较了在不同模型(如Mistral-7B、LLaMA-2-7B和LLaMA-2-13B)上回声嵌入和经典嵌入的性能。

  • 不同池化策略的比较:作者还探讨了平均池化和最后标记池化策略在回声嵌入和经典嵌入中的作用。

  • 双向架构的实验:为了测试架构本身是否足以提高性能,作者尝试在去除因果注意力掩码的Mistral-7B上进行微调,以创建一个具有双向注意力的模型,并比较了其性能。

这些实验结果表明,回声嵌入在多种任务和模型上都能显著提高性能,并且在零样本和微调设置下都能保持这种优势。此外,这些实验还揭示了回声嵌入在处理具有相似开头的句子时的优越性,这是经典嵌入方法的一个已知弱点。
在这里插入图片描述

有什么可以进一步探索的点?

尽管论文中的回声嵌入方法取得了显著的成功,但仍有一些方面可以进一步探索:

  • 理解回声嵌入的机制:尽管回声嵌入在实验中表现出色,但其背后的确切机制尚未完全理解。未来的工作可以深入研究为什么回声嵌入在微调后仍然优于经典嵌入,以及这种改进是如何在不同的任务和数据集上实现的。

  • 优化输入重复策略:论文中使用了简单的重复输入策略,但可能存在更复杂的策略来进一步提高性能。例如,可以考虑不同的重复模式、间隔或其他结构化的方法来传递信息。

  • 计算效率:回声嵌入方法需要将输入传递给模型两次,这可能会增加计算成本。研究如何减少这种额外成本,例如通过更高效的模型架构或优化的输入处理策略,是一个有价值的方向。

  • 不同模型架构的适用性:虽然论文主要关注自回归模型,但回声嵌入方法是否可以应用于其他类型的语言模型,如Transformer-XL或BERT等,也是一个值得探索的问题。

  • 跨语言和跨领域的泛化能力:研究回声嵌入在不同语言和领域中的泛化能力,以及如何调整方法以适应特定的应用场景。

  • 与其他嵌入技术的结合:考虑将回声嵌入与其他先进的嵌入技术(如对比学习、多任务学习等)结合,以进一步提高嵌入的质量。

  • 实际应用的评估:在实际应用中,如搜索引擎、推荐系统或自然语言理解任务中,评估回声嵌入的性能和实用性。

  • 可解释性和透明度:提高嵌入的可解释性,使得用户能够理解嵌入背后的语义和决策过程,这对于嵌入技术的接受度和信任度至关重要。

通过探索这些方向,研究者可以进一步提高文本嵌入技术的性能和适用性,同时也为理解语言模型的工作原理提供更深入的见解。

总结一下论文的主要内容

  • 问题定义:论文指出自回归大型语言模型(LLMs)在提取文本嵌入时存在一个限制,即早期标记的上下文化嵌入不能包含来自句子后部的信息。这可能导致在语义相似性估计上的失败。

  • 方法提出:为了解决这个问题,作者提出了一种名为“回声嵌入”的方法。这种方法通过在上下文中重复输入两次,并从第二次出现的文本中提取嵌入,从而使早期标记能够编码关于后续标记的信息。

  • 实验设计:作者在大规模文本嵌入基准(MTEB)上进行了实验,包括零样本和微调设置,以评估回声嵌入与传统嵌入方法的性能。

  • 结果分析:实验结果表明,回声嵌入在多种任务和模型上显著优于传统嵌入方法。在零样本设置中,回声嵌入的性能提升超过9%,而在微调设置中,平均提升约为0.7%。

  • 对比实验:论文还与先前的开源模型进行了对比,展示了回声嵌入在不利用合成微调数据的情况下,能够实现与先前模型相匹配甚至更优的性能。

  • 局限性讨论:尽管回声嵌入取得了成功,但论文也指出了其局限性,包括需要双倍的推理成本,以及在微调后性能提升的具体机制尚不明确。

  • 未来工作:论文提出了未来研究的方向,包括理解回声嵌入的工作原理、优化输入重复策略、提高计算效率、探索跨语言和跨领域的泛化能力等。

总的来说,这篇论文提出了一种新的文本嵌入方法,通过在自回归语言模型中重复输入来克服信息编码的局限性,并在多个任务上展示了其有效性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/499948.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

WebCPM:首个开源的交互式网页搜索中文问答模型

论文题目:WEBCPM: Interactive Web Search for Chinese Long-form Question Answering   论文日期:2023/05/23(ACL 2023)   论文地址:https://arxiv.org/abs/2305.06849   GitHub地址:https://arxiv.org/abs/2305.06849 文章…

自动化构建平台(三)Linux搭建私有的docker镜像库之Harbor的安装和使用详解

文章目录 前言一、Harbor的安装第一步:安装docker第二步:安装docker-compose第三步:安装Harbor 二、Harbor登录三、Harbor项目管理第一步:创建项目第二步:推送镜像 四、Harbor权限控制五、Harbor自动清理多余的镜像手动…

HOOPS Communicator对3D大模型轻量化加载与渲染的4种解决方案

今天给大家介绍一些关于3D Web轻量化引擎HOOPS Commuicator的关键概念,这些概念可以帮您在HOOPS Communicator流缓存服务器之上更好地构建您自己的模型流服务器。如果您是有大型数据集,那么,使用流缓存服务器可以极大地帮助您最大限度地减少内…

通过jenkins进行部署java程序到centos上

1.通过jumpserver访问到centos上,准备下java环境 // step1: 先编辑下 vim /etc/profile// step2: 编写好环境变量 JAVA_HOME/usr/local/java export JAVA_HOME export ZOOKEEPER_HOME/opt/zookeeper/apache-zookeeper-3.7.0-bin PATH$PATH:$JAVA_HOME/bin:$ZOOKEEP…

IntelliJ IDEA上svn分支管理和使用

IntelliJ IDEA上svn分支管理和使用 从Subversion下载trunk下的代码 选择项目创建分支 右键 Subversion --> branch or Tag … 选择Repository Location:需要创建的项目 选择Any Location 分支的位置和名字 详细查看截图 切换到分支 选择项目右键Subversion --> Update …

DolphinScheduler——蔚来汽车数据治理开发平台的应用改造

目录 一、业务痛点 二、应用现状 三、技术改造 3.1 稳定性 3.1.1 滚动重启黑名单机制精准路由 3.2 易用性 依赖节点优化 补数任务优化 多 SQL 执行 原文大佬的这篇基于调度系统的数据治理案例有借鉴意义,这里摘抄下来用作学习和知识沉淀。 一、业务痛点 蔚…

小程序实现定位城市切换且城市根据首字母A-Z排序后端数据实现逻辑

场景: 话不多说后端提供数据实现步骤: 1.controller层 Api(tags {"[地区]-城市相关接口"}) RestController RequestMapping("region") Slf4j public class RegionController extends BaseController {Resourceprivate RegionServ…

MCBPS配置成SPI

MCBPS配置成SPI 典型的SPI接口 McBSP作为SPI主机 以McBSP为主的SPI接口如图所示。当McBSP被配置为主控器时,发送输出信号(DX)被用作SPI协议的SPISIMO信号,并且接收输入信号(DR)被用作SPISOMI信号。 表列出了将McBSP配置为主控器所需的寄存器位值。下表是有关配置要求…

HQL,SQL刷题,尚硅谷

目录 相关表数据: 题目及思路解析: 查询结果排序&分组指定条件 1、查询学生的总成绩并按照总成绩降序排序 2、按照如下格式显示学生的语文、数学、英语三科成绩,没有成绩的输出为0,按照学生的有效平均成绩降序显示 3、查询一…

OJ_二叉树已知先序遍历序列(有空叶子)求中序遍历序列

题干 C实现 #define _CRT_SECURE_NO_WARNINGS #include<stdio.h> #include<vector> using namespace std;struct TreeNode {char data;TreeNode* left;TreeNode* right; };TreeNode* RecursiveBuildTree(int& i, char str[]) {char c str[i];i;if (c #) {re…

百度SEO工具,自动更新网站的工具

在网站SEO的过程中&#xff0c;不断更新网站内容是提升排名和吸引流量的关键之一。而对于大多数网站管理员来说&#xff0c;频繁手动更新文章并进行SEO优化可能会是一项繁琐且耗时的任务。针对这一问题&#xff0c;百度自动更新文章SEO工具应运而生&#xff0c;它能够帮助网站管…

LeetCode 2120.执行所有后缀指令

现有一个 n x n 大小的网格&#xff0c;左上角单元格坐标 (0, 0) &#xff0c;右下角单元格坐标 (n - 1, n - 1) 。给你整数 n 和一个整数数组 startPos &#xff0c;其中 startPos [startrow, startcol] 表示机器人最开始在坐标为 (startrow, startcol) 的单元格上。 另给你…