大语言模型在研究领域的应用——信息检索中的大语言模型

信息检索中的大语言模型

  • 大语言模型提升信息检索任务
    • 利用大语言模型进行信息检索
    • 大语言模型增强的信息检索模型.
  • 检索增强的大语言模型
    • 输入优化策略.
    • 指令微调策略.
    • 预训练策略.
  • 总结
    • 应用建议
    • 未来方向

大语言模型对于传统信息检索技术与应用范式带来了重要影响。这两者在技术路径上具有紧密的互补性。大语言模型拥有强大的语言理解、推理与生成能力,能够助力构建更为智能的信息检索系统;而信息检索技术能够高效地从外界获取所需要的相关信息,可以为大语言模型提供更为精确、可靠的上下文信息。本部分将概要介绍如何利用大语言模型提升信息检索效果,以及检索增强的大语言模型,如下图:

在这里插入图片描述

大语言模型提升信息检索任务

首先,针对第一个方面展开探讨,介绍大语言模型如何推动信息检索领域的技术发展,包括利用大语言模型进行信息检索和大语言模型增强的信息检索模型。

利用大语言模型进行信息检索

现代信息检索系统通常采用检索-重排序的流水线框架。在这个框架内,检索模型首先从大规模语料库中检索相关的候选信息,然后由重排序模型对候选信息进行精细排序,以优化检索结果。利用大语言模型改进信息检索系统的研究工作主要可以分为两类。第一类方法将语言模型作为检索基座模型,其沿用以往稠密检索的训练方法,通过在检索数据上进行微调,构建检索器或重排序器,利用大语言模型较好的语义理解能力,提升文本表示的质量,进而提高检索效果。由于检索任务对于效率要求较高,研究人员一般使用规模相对较小的语言模型(如 Mistral-7B)用于稠密检索。第二类方法通过设计特殊的指令(例如“请判断下述查询和文档的相关程度”),直接引导大语言模型生成两者的相关程度(如相关度分类或者打分),用于对候选文档集合进行排序以完成检索任务。出于效率考虑,大多数研究工作主要将大语言模型应用于重排序阶段,通常可以采用逐点评测法(Pointwise)、成对比较法(Pairwise)以及列表排序法(Listwise)三种方法对于召回的候选文档列表进行重排序。

大语言模型增强的信息检索模型.

由于大语言模型具有出色的语义理解与生成能力,其可以为信息检索模型补充相关性信息。主要可以分为以下两类方法。第一类方法通过构造特殊的提示,使得大语言模型能够充当人类标注者的角色,以较低成本完成大规模训练数据的标注工作,为传统检索模型补充高质量标注数据。例如,针对检索语料库中的文档,可以引导大语言模型基于该文档生成一个候选查询,并将这组数据对扩充到训练数据中,实现训练数据增强。第二类方法同样通过设计特殊的提示,利用大语言模型对输入查询进行改写,辅助信息检索模型精准理解用户的需求。此外,还可以利用大语言模型对查询进行详细解释和扩充,并将这些内容附加到原始查询之后,帮助信息检索模型获取更全面的结果。

检索增强的大语言模型

受限于训练数据的时效性和局限性,当涉及实时新闻或特定专业领域内知识时,大语言模型的生成结果可能不够准确。为弥补这一不足,研究人员引入了检索增强生成(Retrieval-Augmented Generation, RAG)技术。该技术旨在通过信息检索系统从外部知识库中获取相关信息,为大语言模型提供时效性强、领域相关的外部知识,以减少大语言模型生成内容中的错误。然而,真实的应用场景下,检索返回的结果可能受限于检索质量、呈现格式、输入长度等问题,从而导致大语言模型不能很好地利用这些信息。为了使大语言模型在检索增强生成场景中有更好的表现,本节将介绍三种改进策略:输入优化,指令微调,和预训练策略。

输入优化策略.

在检索增强生成的场景中,大语言模型主要面临两个主要挑战。首先,当处理包含多个参考文档的长文本时,其信息利用能力往往会下降;其次,检索到的结果中可能包含与任务无关的文档,这可能会干扰模型对关键信息的识别和处理。为了克服这些挑战,可以使用过滤、压缩、摘要等技术,在文档和词元两个层级优化模型输入。在文档层面,可以使用相关度排序模型度量文档与查询之间的相关程度,过滤与查询相关程度较低的候选文档。在词元层面,可以采用压缩或摘要方法来实现更细粒度的内容优化。具体来说,可以使用自动摘要模型对查询和检索文档生成综合性摘要,从中抽取更加精炼且与查询紧密相关的内容。由于这一过程可能会丢失重要的信息(例如人名中姓氏被删除),故可以预先对关键实体等重要信息进行抽取和保留,之后再对其进行恢复。

指令微调策略.

指令微调策略可以用来加强大语言模型对于检索结果中所包含信息的利用能力。该策略的核心在于构造面向检索文档利用的指令数据,并通过对大语言模型进行微调,提升其对文档信息的处理和理解能力。在指令设计时,需要关注两个问题。首先,需要确保模型能够平等地关注输入中不同位置(如开头、中间、结尾)的内容,以缓解某些位置的信息容易被忽略的问题(如中间位置)。其次,当存在不相关信息的检索文档时,大语言模型应尽可能地避免被这些信息干扰。基于这两点,可以通过添加特殊的指令数据,例如将相关文档放置于不同的位置,或包含不相关文档,以提升大语言模型在检索增强生成任务上的表现。

预训练策略.

如果大语言模型最终主要用于信息检索任务,还可以在预训练阶段采用特殊的学习任务对其检索生成能力进行针对性的加强。一种常见的策略是将语料库中文档的标题或第一段文字作为查询,其余内容作为期望的生成结果,调用检索器依据查询获得相关文档。也有一些研究工作将每段话分为长度相等的两部分,其中前半部分作为查询,后半部分作为期望的生成结果。为了进一步强化大模型理解和利用相关文档的能力,还可以基于聚类方法构造相关文档集合,通过拼接关联文档以得到针对性的预训练数据。

总结

下面总结大语言模型与信息检索技术融合的应用建议与未来研究方向。

应用建议

信息检索技术和大语言模型可以互相促进。在提升信息检索系统方面,大语言模型凭借其强大的语义理解能力,能够作为检索或重排序基座模型。此外,大语言模型还可以为信息检索任务提供高质量标注数据和或用于改写用户查询,进一步提升信息检索模型的性能。在另一方面,信息检索系统能够从其他数据源中为大语言模型提供相关参考信息,能够缓解大语言模型无法获取实时信息与领域信息的问题,进而提升大语言模型在知识密集型任务中的表现。

未来方向

目前来说,大语言模型与信息检索技术的融合也存在一些技术挑战。首先,大语言模型需要大规模的算力资源支持,在真实信息检索场景中难以广泛进行部署。因此,如何确定大语言模型的应用场景,以及如何将其与小型检索模型进行有效结合,是平衡效率和性能的关键问题。其次,下游场景中并不总是需要检索增强,大语言模型凭借自身内部知识可能就足以支持某些任务。因此,如何设计可以进行主动性触发与使用检索机制是一个值得研究的方向。此外,检索结果中可能包含长度较长的文本内容,而且其中可能存在噪声信息,如何加强大语言模型对于上下文中相关信息的选择与利用,也具有重要的研究意义。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/650352.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

8个拿来即用的Python自动化脚本!

每天你都可能会执行许多重复的任务,例如阅读新闻、发邮件、查看天气、清理文件夹等等,使用自动化脚本,就无需手动一次又一次地完成这些任务,非常方便。而在某种程度上,Python 就是自动化的代名词。 今天分享 8 个非常…

OS复习笔记ch4

引言 上一章,我们学习了进程的相关概念和知识,不知道小伙伴们的学习进度如何,没看的小伙伴记得去专栏看完哦。 线程从何而来 我们之前说过,进程是对程序运行过程的抽象,它的抽象程度是比较高的。 一个进程往往对应一…

产品推荐 | BittWare基于 Achronix Speedster7t FPGA的S7t-VG6加速卡

01 产品概述 S7t-VG6 VectorPath加速器卡提供了一个7纳米的Achronix FPGA,它针对高速网络和快速、大容量内存访问进行了优化。该板具有一个QSFP-DD(双密度)笼,使用支持56G PAM4的Speedster7t设备,可支持1x 400GbE或4x…

VScode使用cmake编译

一:输入 ctrlshiftp打开用于命令执行的输入框 二:输入cmake,选择quick start 模式 三:选择版本最高的gcc版本 四:输入项目名称 选择C 五:选择executable 这样便创建好了最简单的cmake例程,一个…

阶跃星辰:探索智能科技的星辰大海

引言 在当今快速发展的科技时代,人工智能已经成为推动社会进步的重要力量。阶跃星辰,正是在这一背景下诞生的。 阶跃星辰是一家专注于通用人工智能探索的公司,成立于2023年4月。该公司的创始团队由一群对人工智能充满热情和渴望的人组成&am…

独家定制,个性至上——可道云TeamOS企业网盘,为您的企业量身定制

烦恼买了企业网盘,却不能修改网盘名称?想要将网盘的logo换成公司的logo? 市面上的大多数公有云盘就是标准化产品,无法改变企业网盘的既定样式、增删功能、也难以根据企业的实际需求灵活变通。 特别是当今企业应用的办公软件比较…

Sui主网升级至V1.23.1版本

其他升级要点如下所示: #17126 协议:Deepbook的更改将被还原。 #16673 开发者可能会看到更多编译器诊断,因为选择的解析错误不再阻止编译,并且编译器的诊断会到达后续编译阶段,其中可能会生成额外的诊断。 #16966…

微软发布「轻量级AI模型」Phi-3-mini,性能逼近GPT-3.5,可手机端运行

微软发布「轻量级AI模型」Phi-3-mini,性能逼近GPT-3.5,可手机端运行 小模型时代来了? 当地时间 4 月 23 日,微软发布了 Phi-3 系列模型,最小参数38亿,最大规模拓展到了140亿,包含3个版本&…

keytool,openssl的使用

写在前面 在生成公钥私钥,配置https时经常需要用到keytool,openssl工具,本文就一起看下其是如何使用的。 keytool是jdk自带的工具,不需要额外下载,但openssl需要额外下载 。 1:使用keytool生成jks私钥文件…

switch语句深讲

一。功能 1.选择,由case N:完成 2.switch语句本身没有分支功能,分支功能由break完成 二。注意 1.switch语句如果不加break,在一次判断成功后会执行下面全部语句并跳过判断 2.switch的参数必须是整形或者是计算结果为整形的表达式,浮点数会…

【Moveit2】使用moveit_setup_assistant配置自己的机械臂功能包

【Moveit2】使用moveit_setup_assistant配置自己的机械臂功能包 文章目录 【Moveit2】使用moveit_setup_assistant配置自己的机械臂功能包1.确保你已经安装了moveit2环境2.配置机械臂功能包Reference 环境信息: ubuntu 22.04ros2 humblemoveit2 1.确保你已经安装了…

固态硬盘分区详细指南

引言:随着存储技术的不断进步,固态硬盘(SSD)成为近些年电脑存储的主流选择之一,其性能和耐用性都有显著的优势。不过,对于很多用户来说,如何合理地使用和管理固态硬盘依然存在疑惑。本文将详细介…