【NLP】RAG 应用中的调优策略

检索增强生成应用程序的调优策略

没有一种放之四海而皆准的算法能够最好地解决所有问题。

本文通过数据科学家的视角审视检索增强生成(RAG)管道。它讨论了您可以尝试提高 RAG 管道性能的潜在“超参数”。与深度学习中的实验类似,例如,数据增强技术不是超参数,而是可以调整和实验的旋钮,本文还将介绍您可以应用的不同策略,这些策略本身不是超参数。

本文涵盖以下按相关阶段排序的“超参数”。在RAG 管道的

摄取阶段,您可以通过以下方式实现性能改进:

  • 数据清洗
  • 分块
  • 嵌入模型
  • 元数据
  • 多重索引
  • 索引算法

在推理阶段(检索和生成),您可以调整:

  • 查询转换
  • 检索参数
  • 高级检索策略
  • 重新排序模型
  • LLM
  • 及时工程

请注意,本文涵盖了 RAG 的文本用例。对于多模式 RAG 应用,可能需要考虑不同的因素。

摄取阶段

摄取阶段是构建 RAG 管道的准备步骤,类似于 ML 管道中的数据清理和预处理步骤。通常,摄取阶段包括以下步骤:

  1. 收集数据
  2. 块数据
  3. 生成块的向量嵌入
  4. 将向量嵌入和块存储在向量数据库中

首先对文档进行分块,然后对块进行嵌入,并将嵌入存储在向量数据库中

RAG 管道的摄取阶段

本节讨论有影响力的技术和超参数,您可以应用和调整这些技术和超参数,以提高推理阶段检索到的上下文的相关性。

数据清洗

与任何数据科学管道一样,数据质量会严重影响 RAG 管道中的结果 。在继续执行以下任何步骤之前,请确保您的数据满足以下条件:

  • 清洗:至少应用自然语言处理中常用的一些基本数据清理技术,例如确保所有特殊字符都正确编码。
  • 准确:确保您的信息一致且事实准确,以避免信息冲突使您的LLM感到困惑。

分块

对文档进行分块是 RAG 管道中外部知识源的重要准备步骤,这可能会影响性能 。它是一种生成逻辑上连贯的信息片段的技术,通常是将长文档分解成较小的部分(但它也可以将较小的片段组合成连贯的段落)。

您需要考虑的一项是分块技术的选择。例如,在LangChain中,不同的文本拆分器通过不同的逻辑来拆分文档,例如按字符、令牌等。这取决于您拥有的数据类型。例如,如果您的输入数据是代码,则您将需要使用不同的分块技术,如果它是 Markdown 文件,您将需要使用不同的分块技术。

块 ( chunk_size)的理想长度取决于您的用例:如果您的用例是问答,您可能需要较短的特定块,但如果您的用例是摘要,您可能需要更长的块。此外,如果块太短,它可能无法包含足够的上下文。另一方面,如果块太长,它可能包含太多不相关的信息。

此外,您需要考虑块之间的“滚动窗口”( overlap)以引入一些额外的上下文。

嵌入模型

嵌入模型是检索的核心。嵌入的质量会严重影响您的检索结果。通常,生成的嵌入的维数越高,嵌入的精度就越高。

要了解可用的替代嵌入模型,您可以查看大规模文本嵌入基准 (MTEB) 排行榜,其中涵盖 164 个文本嵌入模型(在撰写本文时)。

虽然您可以开箱即用地使用通用嵌入模型,但在某些情况下,根据您的特定用例微调嵌入模型可能是有意义的,以避免稍后出现域外问题 。根据 LlamaIndex 进行的实验,微调嵌入模型可以使检索评估指标的性能提高 5-10% 。

请注意,您无法微调所有嵌入模型(例如,OpenAItext-ebmedding-ada-002目前无法微调)。

元数据

当您将矢量嵌入存储在矢量数据库中时,某些矢量数据库允许您将它们与元数据(或未矢量化的数据)存储在一起。使用元数据注释向量嵌入有助于对搜索结果进行额外的后处理,例如元数据过滤[1,3,8,9]。例如,您可以添加元数据,例如日期、章节或子章节参考。

多重索引

如果元数据不足以提供附加信息来逻辑地分隔不同类型的上下文,您可能需要尝试使用多个索引。例如,您可以对不同类型的文档使用不同的索引。请注意,您必须在检索时合并一些索引路由。

索引算法

为了实现大规模快速相似性搜索,矢量数据库和矢量索引库使用近似最近邻 (ANN) 搜索而不是 k 最近邻 (kNN) 搜索。顾名思义,ANN 算法近似最近邻,因此可能不如 kNN 算法精确。。

您可以尝试不同的 ANN 算法,例如Facebook Faiss(聚类)、Spotify Annoy(树)、Google ScaNN(矢量压缩)和HNSWLIB(邻近图)。此外,许多 ANN 算法都有一些您可以调整的参数,例如HNSW的efefConstructionmaxConnections

此外,您可以为这些索引算法启用矢量压缩。与 ANN 算法类似,矢量压缩会损失一些精度。但是,根据矢量压缩算法的选择及其调整,您也可以对此进行优化。

然而,在实践中,这些参数已经由向量数据库和向量索引库的研究团队在基准测试过程中调整,而不是由 RAG 系统的开发人员调整。但是,如果您想尝试使用这些参数来发挥最后的性能,我建议您从这篇文章开始:

推理阶段(检索和生成)

RAG 管道的主要组件是检索组件和生成组件。本节主要讨论改进检索的策略(查询转换、检索参数、高级检索策略和重新排序模型),因为这是两者中影响更大的部分。但它也简要介绍了一些提高生成的策略(LLM和即时工程)

标准 RAG 架构

RAG 管道的推理阶段

查询转换

由于在 RAG 管道中检索附加上下文的搜索查询也嵌入到向量空间中,因此其措辞也会影响搜索结果。因此,如果您的搜索查询没有产生令人满意的搜索结果,您可以尝试各种查询转换技术,例如:

  • 重新措辞:使用LLM重新措辞查询并重试。
  • 假设文档嵌入 (HyDE):使用 LLM 生成对搜索查询的假设响应,并将两者用于检索。
  • 子查询:将较长的查询分解为多个较短的查询。

检索参数

检索是 RAG 管道的重要组成部分。首先要考虑的是语义搜索是否足以满足您的用例,或者您是否想尝试混合搜索。

在后一种情况下,您需要在混合搜索中尝试对稀疏和密集检索方法的聚合进行加权。因此,调整参数alpha来控制语义 (alpha = 1 ) 和基于关键字的搜索 (alpha = 0 )之间的权重将变得必要。

此外,要检索的搜索结果的数量也将发挥重要作用。检索到的上下文数量将影响所使用的上下文窗口的长度。此外,如果您使用重新排名模型,则需要考虑向模型输入多少上下文。

请注意,虽然语义搜索使用的相似性度量是一个可以更改的参数,但您不应该对其进行实验,而是根据使用的嵌入模型进行设置(例如,text-embedding-ada-002支持余弦相似性或multi-qa-MiniLM-l6-cos-v1支持余弦相似性、点积和欧几里得距离) )。

高级检索策略

从技术上讲,本节可以单独成一篇文章。对于本概述,我们将尽可能保持简洁。

本节的基本思想是用于检索的块不一定与用于生成的块相同。理想情况下,您可以嵌入较小的块进行检索,但检索更大的上下文。

  • 句子窗口检索:不只是检索相关句子,而是检索检索到的句子之前和之后的适当句子的窗口。
  • 自动合并检索:文档以树状结构组织。在查询时,独立但相关的较小块可以合并到更大的上下文中。

重新排列模型

虽然语义搜索根据与搜索查询的语义相似性来检索上下文,但“最相似”并不一定意味着“最相关”。重新排序模型(例如Cohere的重新排序模型)可以通过计算每个检索到的上下文的查询相关性的分数来帮助消除不相关的搜索结果 。

“最相似”并不一定意味着“最相关”

如果您使用重新排序模型,您可能需要重新调整重新排序输入的搜索结果数量以及您想要输入 LLM 的重新排序结果数量。

与嵌入模型一样,您可能需要尝试根据您的特定用例微调重新排序器

LLM

LLM是生成回复的核心组件。与嵌入模型类似,您可以根据自己的要求选择多种 LLM,例如开放模型与专有模型、推理成本、上下文长度等。

与嵌入模型或重新排序模型一样,您可能需要尝试根据您的特定用例对LLM 进行微调,以纳入特定的措辞或语气。

及时工程

你如何表达或设计你的提示将显着影响LLM完成。

请仅根据搜索结果给出您的答案,不要考虑其他任何内容!
很重要!您的答案必须基于所提供的搜索结果。
请解释为什么您的答案基于搜索结果!

此外,在提示中使用少量示例可以提高完成的质量。

正如检索参数中提到的,输入到提示中的上下文数量是您应该尝试的一个参数 。虽然 RAG 管道的性能可以随着相关上下文的增加而提高,但您也可能会遇到“迷失在中间”的效果,即如果将相关上下文放置在许多上下文的中间,LLM 就无法识别相关上下文。上下文。

概括

随着越来越多的开发人员获得 RAG 管道原型设计的经验,讨论将 RAG 管道引入生产就绪性能的策略变得更加重要。本文讨论了不同的“超参数”以及您可以根据相关阶段在 RAG 管道中调整的其他旋钮:

本文涵盖了摄取截断的以下策略:

  • 数据清理:确保数据干净且正确。
  • 分块:选择分块技术、块大小 ( chunk_size) 和块重叠 ( overlap)。
  • 嵌入模型:嵌入模型的选择,包括。维度,以及是否对其进行微调。
  • 元数据:是否使用元数据以及元数据的选择。
  • 多重索引:决定是否针对不同的数据集合使用多个索引。
  • 索引算法:可以调整 ANN 和矢量压缩算法的选择和调整,但通常不由从业者进行调整。

以及推理截断(检索和生成)的以下策略:

  • 查询转换:尝试改写、HyDE 或子查询。
  • 检索参数:搜索技术的选择(alpha如果启用了混合搜索)和检索的搜索结果的数量。
  • 高级检索策略:是否使用高级检索策略,例如句子窗口或自动合并检索。
  • 重新排序模型:是否使用重排序模型、重排序模型的选择、输入重排序模型的搜索结果数量以及是否微调重排序模型。
  • LLM:LLM 的选择以及是否对其进行微调。
  • 及时工程:尝试不同的措辞和少量示例。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/268078.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Pika:AIGC新秀,视频生成产业或迎来GPT时刻

今天分享的AIGC系列深度研究报告:《Pika:AIGC新秀,视频生成产业或迎来GPT时刻》。 (报告出品方:中泰证券) 报告共计:11页 Pika:专注Text to Video生成场景,支持3D和动漫…

[ESXi 5/6/7/8]设置 ESXi DCUI 欢迎消息

目录 1. ESXi默认设置2. 设置欢迎消息 MOTD2.1 使用GUI设置2.2 使用 ESXCLI 命令设置使用 esxcli 移除欢迎消息 参考资料 配置在 ESXi 直接控制台用户界面 (DCUI) 中显示的欢迎消息,并验证配置是否处于只读模式 Annotations.WelcomeMessage 是ESXi的高级系统设置&am…

推介几个我装机必备的实用Linux工具

最近在装Ubuntu双系统,不知不觉这些装机必备的神级轮子使用这么多年了,大大提高效率,也同样推介给你们,一起看看吧 插播,更多文字总结指南实用工具科技前沿动态第一时间更新在公粽号【啥都会一点的研究生】 thefuck …

零基础自学Python的最全时间规划表

文章目录 前言第一阶段:熟悉Python第二阶段:软件开发第三阶段:成为程序员关于Python技术储备一、Python所有方向的学习路线二、Python基础学习视频三、精品Python学习书籍四、Python工具包项目源码合集①Python工具包②Python实战案例③Python小游戏源码五、面试资料六、Python…

消息队列kafka详解:Kafka架构介绍

一. 工作流程 Kafka中消息是以topic进行分类的,Producer生产消息,Consumer消费消息,都是面向topic的。 Topic是逻辑上的改变,Partition是物理上的概念,每个Partition对应着一个log文件,该log文件中存储的就…

SAP ABAP excel文件模板上传下载

一:事物码smw0 二:上传步骤 程序源码: l_filename XX.xls.l_muban z123. *&---下载模板PERFORM frm_get_fullpath CHANGING gv_fullpath gv_path gv_name. *&---路径为空则退出IF gv_fullpath IS INITIAL.MESSAGE 用户取消操作 T…

Python简单网抑云数据采集 JS逆向

嗨喽,大家好呀~这里是爱看美女的茜茜呐 环境使用: Python 3.10 Pycharm 模块使用: requests -> pip install requests execjs -> pip install execjs 爬虫实现基本思路流程: 一. 数据来源分析: 明确需求: 明确采集的网站以及数据内容 网址: https://mu…

Nacos热更新(动态获取配置)

写在前面:各位看到此博客的小伙伴,如有不对的地方请及时通过私信我或者评论此博客的方式指出,以免误人子弟。多谢!如果我的博客对你有帮助,欢迎进行评论✏️✏️、点赞👍👍、收藏⭐️⭐️&#…

【Hadoop_05】NN、2NN以及DataNode的工作机制

1、NameNode和SecondaryNameNode1.1 NN和2NN工作机制1.2 Fsimage和Edits解析1.3 CheckPoint时间设置 2、DataNode2.1 DataNode工作机制2.2 数据完整性2.3 掉线时限参数设置 1、NameNode和SecondaryNameNode 1.1 NN和2NN工作机制 思考:NameNode中的元数据是存储在哪…

python实战教学之python版“张万森,好久不见”

前言 WINTER IS COMING 最近《一闪一闪亮星星》的电影在火热预售中,家人们抢到票了嘛,前两天小编写了一篇“张万森,下雪了”的文章后,收到了不少小伙伴的反馈:“代码的运行结果只有文字,没有雪花啊”&#…

一文了解什么是Selenium自动化测试?

一、Selenium是什么? 用官网的一句话来讲:Selenium automates browsers. Thats it!简单来讲,Selenium是一个用于Web应用程序自动化测试工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作浏览器一样。支持的浏…

react Hooks(useEffect)实现原理 - 简单理解

useEffect 语法: useEffect(setup, dependencies?) 含义: useEffect 是一个 React Hook,它允许你 将组件与外部系统同步。 useEffect 源码简单理解 一、mountEffect 和 upadateEffect useEffect 与其它 hooks 一样分为 mountEffect 和 upadateEffec…