论文评论:Chain-of-Note:增强检索增强语言模型的鲁棒性

      英文原文地址:https://artgor.medium.com/paper-review-chain-of-note-enhancing-robustness-in-retrieval-augmented-language-models-3b4e7fce188a

      2023 年 11 月 20 日

论文链接

检索增强语言模型(RALM)通过使用外部知识源来增强,但它们面临着检索不相关信息和无法使用其固有知识等挑战。他们还很难确定何时拥有足够的信息来获得准确的答案,而通常不会表明何时缺乏知识。为了改善这一点,引入了注释链(CON),它为检索到的文档生成顺序阅读笔记,以评估它们的相关性并将此评估整合到最终答案中。CON 使用 ChatGPT 作为训练数据进行开发,并应用于 LLaMa-2 7B 模型,显着提高了 RALM 在四个开放域 QA 基准上的性能。它在处理模型预训练知识之外的噪声文档和问题时特别有效,从而对未知场景带来更高的准确性和更好的拒绝率。

方法

背景

RALM 通过整合外部知识源代表了语言模型的进步。这些模型的工作原理是使用表示检索到的文档的辅助变量,根据输入查询和这些文档的内容生成响应。然而,由于潜在来源数量巨大,他们使用排名靠前的文档来近似响应生成过程。

尽管取得了进步,RALM 仍存在一些局限性:

  • 表面处理的风险:RALM 可能依赖于表面信息,而忽略了复杂或间接问题中的细微差别。
  • 处理矛盾信息的困难:当面对文件中的矛盾信息时,他们会陷入困境,发现解决这些矛盾或确定哪些信息更可信具有挑战性。
  • 透明度和可解释性降低:RALM 直接生成答案对决策过程的洞察力有限,使用户很难理解结论是如何得出的。
  • 对检索到的文档的过度依赖:RALM 可能过度依赖于检索到的文档的内容,可能会忽略模型的固有知识。这可能会产生问题,尤其是当文档有噪音或过时时。

笔记链框架

注释链框架通过增强 RALM 严格评估检索到的文档的能力来解决 RALM 的局限性。这是通过结构化笔记过程实现的,模型为每个文档生成简洁、相关的摘要。该方法可以系统地评估信息的相关性和准确性,从而提高响应质量。

在实践中,给定输入问题和检索到的文档,该模型会在合成最终响应之前为每个文档生成阅读笔记。CON 框架遵循三个关键步骤:

  • 笔记设计:CON 根据文档与查询的相关性构建阅读笔记。它直接从相关文档中回答,使用部分相关文档中的上下文推断答案,如果文档不相关或不足以回答,则默认为“未知”。
  • 数据收集:这些阅读笔记的训练数据是使用 ChatGPT 生成的。这涉及从 NQ 数据集中抽取 10k 个问题,并提示 ChatGPT 创建注释,然后通过人工评估进行评估。该模型的适应性在各种开放域数据集上得到进一步测试。
  • 模型训练:该模型基于 LLaMa-2 7B 架构,使用收集的数据进行训练。它学习生成与每个文档与输入查询的相关性相对应的阅读笔记。加权损失用于平衡阅读笔记和最终答案之间的焦点,确保答案的准确性和可靠性。

实验

结合密集通道检索 (DPR) 方法和具有检索功能的 LLaMa-2 模型的 RALM 始终优于单独的 LLaMa-2 模型。这种改进很大程度上归功于检索过程的有效性。值得注意的是,与 WebQ 相比,DPR 在 NQ 和 TriviaQA 数据集上表现出更好的检索性能,表明在这些数据集上检索的好处更明显。

此外,集成 CON 的增强型 RALM 的性能优于标准 RALM。所有数据集的精确匹配分数平均提高了 +1.97。CON 特别提高了 RALM 在最初检索到更多噪声文档的情况下的性能。

使用 CON 的 RALM 中的噪声鲁棒性评估是在两种情况下进行的:使用从实际查询中检索到的排名靠前的不相关文档(代表语义噪声)和使用来自维基百科的完全随机文档(总噪声)。在仅包含噪声文档的场景中,使用 CON 增强的 RALM 始终优于标准 RALM,三个开放域 QA 数据集的精确匹配分数平均提高了 +7.9。

当处理完全有噪声的文档时,标准 RALM 和使用 CON 增强的 RALM 的性能都比没有信息检索的原始 LLaMa-2 模型差,这表明容易受到误导性信息的影响。然而,CON 增强模型在没有信息检索的情况下几乎与 LLaMa-2 的性能相匹配,证明了其鲁棒性和忽略不相关数据的能力。

此外,作者观察到,标准 RALM 和具有 CON 的 RALM 在随机文档上的表现都比在语义噪声文档上表现得更好,这表明语义相关噪声更具欺骗性。

在比较标准 RALM 与 CON 增强的 RALM 的案例研究中,观察到信息处理和解释方面的明显差异。在一个案例中,问题与美国最近举办的夏季奥运会有关。标准 RALM 错误地关注了芝加哥最近申办 2016 年奥运会的情况,导致答案不准确。相比之下,RALM 和 CON 承认芝加哥申办失败,并正确得出美国最近一届奥运会举办于 1996 年的结论。

在另一个案例中,关于第一位 Jnanpith 奖获奖者的语言,标准 RALM 识别了获奖者,但未能将其与其作品的语言联系起来。然而,带有 CON 的 RALM 有效地综合了多个文档中的信息,正确地将马拉雅拉姆语识别为语言。这些案例凸显了 CON 增强型 RALM 在理解和整合各种来源的信息、避免表面细节并提供更细致和准确的结论方面的卓越能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/418886.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

typing python 类型标注学习笔记

在Python 3.5版本后引入的typing模块为Python的静态类型注解提供了支持。这个模块在增强代码可读性和维护性方面提供了帮助。 目录 简介为什么需要 Type hints typing常用类型typing初级语法typing基础语法默认参数及 Optional联合类型 (Union Type)类型别名 (Type Alias)子类型…

Jetbrains Writerside 使用教程

系列文章目录 前言 一、入门 Writerside 是基于 IntelliJ 平台的 JetBrains 集成开发环境。使用它可以编写、构建、测试和发布技术文档。 如果你想将 Writerside 作为另一个 JetBrains IDE 的插件,请参阅 Writerside 作为插件。 1.1 安装 Writerside…

让uniapp小程序支持多色图标icon:iconfont-tools-cli

前景: uniapp开发小程序项目时,对于iconfont多色图标无法直接支持;若将多色icon下载引入项目则必须关注包体,若将图标放在oss或者哪里管理,加载又是一个问题,因此大多采用iconfont-tools工具,但…

Siemens-NXUG二次开发-导入与导出(可移除参数)prt文件[Python UF][20240121]

Siemens-NXUG二次开发-导入与导出(可移除参数)prt文件[Python UF][20240121] 1.python uf函数1.1 NXOpen.UF.Part.Import1.2 NXOpen.UF.Part.ImportPartModes1.3 NXOpen.UF.Group.AskGroupData1.4 NXOpen.UF.Obj.AskTypeAndSubtype1.5 NXOpen.UF.Part.Ex…

mariadb数据库从入门到精通

mariadb数据库的安装以及安全初始化 mariadb数据库的安装以及安全初始化 mariadb数据库的安装以及安全初始化一、实验前提二、mariadb数据库的安装三、mariadb数据库安全初始化3.1 设定数据库基本的安全初始化3.2关闭对外开放端口 系列文章目录一、查看数据库二、进入库并且查看…

竞赛保研 机器视觉人体跌倒检测系统 - opencv python

0 前言 🔥 优质竞赛项目系列,今天要分享的是 🚩 机器视觉人体跌倒检测系统 该项目较为新颖,适合作为竞赛课题方向,学长非常推荐! 🥇学长这里给一个题目综合评分(每项满分5分) 难度系数&…

Flutter 与 Android原生 相互通信:BasicMessageChannel、MethodChannel、EventChannel

前言 本文主要讲解,使用不同的 Channel 让 Flutter 和 Android原生 进行通信,由于只是讲解两端通信,所以可视化效果不好; 不过我写了一篇专门讲解 Flutter 嵌入 Android原生View的文章 Flutter 页面嵌入 Android原生 View-CSDN…

第二课:BERT

文章目录 第二课:BERT1、学习总结:为什么要学习BERT?预训练模型的发展历程BERT结构BERT 输入BERT EmbeddingBERT 模型构建BERT self-attention 层BERT self-attention 输出层BERT feed-forward 层BERT 最后的Add&NormBERT EncoderBERT 输…

BlueBunny:基于低功耗蓝牙的Bash bunny命令控制C2框架

关于BlueBunny BlueBunny是一款功能强大的命令控制框架,该工具基于低功耗蓝牙实现数据通信,可以帮助广大研究人员直接通过蓝牙将控制指令发送给Bash Bunny。 什么是Bash Bunny Bash Bunny是一款类似于USB Rubber Ducky的多功能USB攻击工具(…

Mysql 编译安装部署

Mysql 编译安装部署 环境: 172.20.26.198(Centos7.6) 源码安装Mysql-5.7 大概步骤如下: 1、上传mysql-5.7.28.tar.gz 、boost_1_59_0.tar 到/usr/src 目录下 2、安装依赖 3、cmake 4、make && make install 5、…

MyBatis 系列:MyBatis 源码环境搭建

文章目录 一、环境准备二、下载 MyBatis 源码和 MyBatis-Parent 源码三、创建空项目、导入项目四、编译 mybatis-parent五、编译 mybatis六、测试总结 一、环境准备 jdk:17 maven:3.9.5 二、下载 MyBatis 源码和 MyBatis-Parent 源码 Mybatis&#x…

外呼机器人有什么优势?

外呼机器人有什么优势?值得受到大多数电销企业的追捧! 1、电话外呼效率高: 每天可拨打的电话数量是人工的5-10倍,人工一天只能拨打200-300通电话,机器人每天能打3000通电话以上,无须休息,按照…