RAG 排坑指南001——文档解析

序言        

RAG搜索增强是一个极其简单的概念。简而言之就是将搜索召回的内容,送给模型润色,重新生成更好的答案。看似简单,实际做起来,就极其的复杂。想要做个演示demo也很简单,复杂的是如何把回答正确率提升到90以上。

RAG中的问题非常之多。并且问题环环相扣。例如,如果文档解析做不到,就不可能在召回的阶段将内容准确的召回(也就是召回率低)虽然可以通过扩大topK来尽可能的提升召回率,但是假如在解析的过程中数据丢失了。是无论如何都找回不到的。如果无法召回,正确的答案就无法送给模型,自认而然就无法回答正确。在我们的生产实践中,遇到将近40%的问题,都是文档解析导致的。

RAG中的第一个问题——文档解析

最初,我们以为,文档解析,不就是把文档中的问题提取到吗。python就有很多PDF文档解析工具。实际上文档解析也是一个非常复杂的问题,例如不同格式的文件,可能不限于PDF。即使是PDF文件,存在有的文档是扫描件。文档中的表格解析有可能会丢失数据。开源的PDF解析工具有很多,也各有优缺点。这里可以看这篇文章:大模型RAG问答下的实用开源文档解析工具总结及技术思考:从文档版本分析到单双栏处理

其实文件解析,就两种方式,使用开源的方式去解析。第二种是使用OCR的技术去解析。第二种较为复杂的是,到目前为止,还没有一个特别好的模型能够做到很高的识别率。可以看看这篇文章,通过增强 PDF 结构识别,革新检索增强生成技术(RAG)_文档_模型_文本

根据这篇文章所述,通过OCR识别的文档解析做的相对不错。

文档解析的终极目标就是,不丢失信息

信息不仅仅包含文本,还包括版面信息,表格,图片等信息。段落信息实际上是除了文本信息以外,很重要的部分。拿到标题是非常蛮重要的。标题丢失,文本内容丢失是不被允许的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/475447.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MOS管故障排查(G极电阻篇)

我们经常看到,在电源电路中,功率MOS管的G极经常会串联一个小电阻,几欧姆到几十欧姆不等,那么这个电阻用什么作用呢? 如上图开关电源,G串联电阻R13这个电阻的作用有2个作用:限制G极电流&#x…

在 CentOS 平台下安装与配置 MySQL 5.7.36

CentOS平台常用有三种MySQL安装方式,即RPM安装包、二进制压缩包和源码包。一般来讲,建议使用二进制压缩包,因为该版本比其他的分发版使用起来要简单灵活。本次实验在 CentOS 7.6 平台上选用二进制压缩包安装方式。 1、清理MySQL安装环境 Cent…

【C++杂货铺】string详解

目录 1. 基本概念: 1.1 本质: 1.2 string和char*区别: 1.3 特点: 2. 构造函数(初始化) 3. 赋值操作 4. 字符串拼接 5 查找 和 替换 6. 字符串比较 7. 字符存取 8. 插入和删除 ​9. 子串获取 🌈前言&#x…

JRT监听-PDF-Excel-Img

依赖全新设计,我们无需再顾虑历史兼容性的束缚;同时,基于多年来累积的深入需求理解,JRT监听机制巧妙地借助CMD命令模式,达成了监听的全面统一。无论是PDF、Excel还是图片文件,都不再需要特殊对待或额外区分…

[计算机网络]深度学习传输层TCP协议

💓 博客主页:从零开始的-CodeNinja之路 ⏩ 收录专栏:深度学习传输层TCP协议 🎉欢迎大家点赞👍评论📝收藏⭐文章 [计算机网络]深度学习传输层TCP协议 前提概括一: TCP协议段格式二:确认应答三:超时重传四:…

JS进阶——垃圾回收机制以及算法

版权声明 本文章来源于B站上的某马课程,由本人整理,仅供学习交流使用。如涉及侵权问题,请立即与本人联系,本人将积极配合删除相关内容。感谢理解和支持,本人致力于维护原创作品的权益,共同营造一个尊重知识…

MySQL系列之索引入门(下)

前言 通过上文,我想各位盆友已熟悉MySQL的索引分类及其含义,那么如何合理的使用呢? 请继续围观此文,一探究竟! 一、创建索引 首先,我们一起学习索引是如何创建的,又有哪些方式。 1. create t…

P3817 小A的糖果题解

题目 小A有n个糖果盒,第i个盒中有颗糖果。 小A每次可以从其中一盒糖果中吃掉一颗,他想知道,要让任意两个相邻的盒子中糖的个数之和都不大于x,至少得吃掉几颗糖。 输入输出格式 输入格式 输入的第一行是两个用空格隔开的整数&…

VQ23 请按城市对客户进行排序,如果城市为空,则按国家排序(order by和case when的连用)

代码 select * from customers_info order by (case when city is null then country else city end)知识点 order by和case when的连用

流程编排(LogicFlow)

简介: LogicFlow 是一款流程图编辑框架,提供了一系列流程图交互、编辑所必需的功能和简单灵活的节点自定义、插件等拓展机制,方便我们快速在业务系统内满足类流程图的需求。 vue litefolw实现 liteflow-logicflow-vue实现 特性:…

找图片、壁纸就上这6个网站,高清无水印,免费下载~

推荐6个高清无水印图片、壁纸网站,质量非常高,还能免费下载,赶紧收藏一波~ 1、wallhaven https://wallhaven.cc/ 一个提供优质电脑高清壁纸搜索引擎,壁纸高清如画,使用后都会爱上彻底不能自拔。 Wallhaven 提供超过7…

Python:变量与数据类型

目录 一、变量 1.1 强数据类型与弱数据类型 1.2 全局函数 1.3 变量的命名规范 二、数据类型 2.1 基本数据类型 2.2 复合数据类型(引用数据类型) 三、数据类型转换 一、变量 变量:顾名思义,变化的量。在python中代指运行时…