RAG的缺陷介绍-编程知识

RAG的缺陷介绍

news/2025/3/12 12:10:55/文章来源:https://www.cnblogs.com/michael1102/p/18767171

RAG痛点问题分析论文

论文：《Seven Failure Points When Engineering a Retrieval Augmented Generation System》

地址:
https://arxiv.org/pdf/2401.05856
https://www.163.com/dy/article/JFONA200511D3QS.html

具体痛点问题总结

Index Process (文本向量化构建索引的过程):

Missing Content(内容缺失): 原本文本中就没有问题的答案
文档加载准确性和效率：比如pdf文件的加载，如何提取其中的有用文字信息和图片信息等
文档切分的粒度：文本切分的大小和位置会影响后面检索出来的上下文完整性和与大模型交互的token数量，怎么控制好文档切分的度，是个难题。

Query Process (检索增强回答的过程中):

Missed Top Ranked: 错过排名靠前的文档
Not in Context: 提取上下文与答案无关
Wrong Format (格式错误): 例如需要json，给了字符串
Incomplete(答案不完整): 答案只回答了问题的一部分
Not Extracted(未提取到答案): 提取的上下文中有答案，但大模型没有提取出来
Incorrect Specificity: 答案不够具体或过于具体

痛点问题策略分析

1.文档加载准确性和效率

优化文档读取器

一般知识库中的文档格式都不尽相同，HTML、PDF、Markdown、TXT、CSV等。每种格式文档都有其都有
的数据组织方式。怎么在读取这些数据时将干扰项去除（如一些特殊符号等），同时还保留原文本之间的关联关系
（如csv文件保留其原有的表格结构），是主要的优化方向。

目前针对这方面的探索为：针对每一类文档，涉及一个专门的读取器。如LangChain中提供的
WebBaseLoader专门用来加载HTML文本等。

网址：https://python.langchain.com/v0.1/docs/modules/data_connection/document_loaders/

2.数据清洗与增强

输入垃圾，那也必定输出垃圾。如果你的源数据质量低劣，比如包含互相冲突的信息，那不管你的RAG工作构建得多么好，它都不可能用你输入的垃圾神奇地输出高质量结果。这个解决方案不仅适用于这个痛点，任何RAG工作流程想要获得优良表现，都必须先清洁数据。

3.文档切分的粒度

粒度太大可能导致检索到的文本包含太多不相关的信息，降低检索准确性，粒度太小可能导致信息不全面，导致答案的片面性。问题的答案可能跨越两个甚至多个片段。

固定长度的分块
直接设定块中的字数，每个文本块有多少字。

内容重叠分块
在固定大小分块的基础上，为了保持文本块之间语义上下文的连贯性，在分块时，保持文本块之间有一定的内容重叠。

基于结构的分块
基于结构的分块方法利用文档的固有结构，如HTML或Markdown中的标题和段落，以保持内容的逻辑性和完整性。

基于递归的分块

重复的利用分块规则不断细分文本块。在langchain中会先通过段落换行符（\n\n）进行分割。然后，检查这些块的大小。如果大小不超过一定阈值，则该块被保留。对于大小超过标准的块，使用单换行符（\n）再次分割。以此类推，不断根据块大小更新更小的分块规则（如空格，句号）。

分块大小的选择

（1）不同的嵌入模型有其最佳输入大小。比如Openai的text-embedding-ada-002的模型在256或512大小的块上效果更好。

（2）文档的类型和用户查询的长度及复杂性也是决定分块大小的重要因素。处理长篇文章或书籍时，较大的分块有助于保留更多的上下文和主题连贯性；而对于社交媒体帖子，较小的分块可能更适合捕捉每个帖子的精确语义。如果用户的查询通常是简短和具体的，较小的分块可能更为合适；相反，如果查询较为复杂，可能需要更大的分块。