语义分块:改进 AI 信息检索-编程知识

语义分块:改进 AI 信息检索

news/2025/3/9 10:55:07/文章来源:https://www.cnblogs.com/little-horse/p/18399216

RAG 系统及其挑战

检索增强生成的流行是有充分理由的。它允许 AI 系统通过结合信息检索和语言生成来回答问题。标准的 RAG 管道通过摄取数据、检索相关信息并使用它来生成响应来实现这一点。

然而，随着数据变得越来越复杂，查询也越来越复杂，传统的 RAG 系统可能会面临限制。这就是语义分块发挥作用的地方。

理解语义组块

语义分块是一种基于内容和上下文将文本或数据划分为有意义的片段的方法，而不是任意的字数或字符限制。

它通常是这样工作的:

1.内容分析:系统检查文档以了解其结构和内容。

2.智能分割:它根据语义一致性将内容分成块——完整的想法或独立的解释。

3.上下文嵌入:每个块在更广泛的文档中保留有关其上下文的信息。

这种方法有助于保留信息内的含义和关系，这对于准确检索和生成至关重要。

传统方法的局限性

传统的分块方法虽然计算效率很高，但也有一些缺点:

-它们可以将重要的概念拆分为多个块。

-他们经常很难在不同部门之间保持上下文。

-它们可能导致检索不完整或不连贯的信息。

这些限制可能会影响人工智能生成反应的准确性和相关性，特别是在处理复杂或微妙的信息时。

语义分块实例：

考虑一个 AI 系统正在分析法律文件的场景。一个查询可能是:“总结某司版权侵权案中与合理使用相关的关键论点。”

传统系统可能返回:

1.带有案例介绍的大块，在论证中间切断。

2.另一大块来自合理使用讨论的中间部分，缺乏上下文。

3.与主要论点没有联系的结束语。

相比之下，使用语义分块的系统将:

1.识别关于合理使用论证的整个部分。

2.把相关的先例和例子和每个论点放在一起。

3.在整个模块中保持法律推理的逻辑流畅。

结果是一组信息，更好地保留了原始文档的连贯性和上下文，从而可以更准确、更全面地回应。

另一个与香草方法比较的例子(数据是一篇学术论文):

实现语义分块:方法

实现语义分块的几种方法显示出了希望:

1.llm 支持的分块处理:

-使用大型语言模型来识别语义边界。

-优点:适应不同的内容类型。

-缺点:计算量大。

2.基于规则的语义分割:

-对逻辑中断使用语言规则和启发式。

-优点:高效的结构化文档。

-缺点:内容风格多变，不够灵活。

3.混合方法:

-结合统计方法，机器学习和基于规则的系统。

-优点:平衡效率和适应性。

-缺点:实现起来比较复杂。

方法的选择取决于数据的性质、可用资源和特定需求等因素。

语义分块对 AI 系统的影响

将语义分块集成到 RAG 管道中提供了几个优势:

1.更好的语境保存:保持观点和论点的完整性。

2.改进的检索相关性:返回与查询意图更紧密一致的结果。

3.增强对复杂信息的处理能力:特别适用于长篇内容和复杂的主题。

4.提高 AI 响应的准确性:导致更连贯和全面的输出。

这些改进可以产生更可靠的 AI 系统，能够更精确地处理细微的查询。

挑战和未来方向

虽然语义分块提供了好处，但它也带来了挑战:

-计算需求:更复杂的分析可能需要额外的计算资源。

-领域适应:有效的分块策略可能因不同的领域和内容类型而异。

-平衡粒度:在不牺牲效率的情况下，找到保留意义的最佳块大小。

该领域不断发展，正在进行的研究领域包括:

-多模态语义分块:扩展到文本之外，以理解和分块其他媒体类型。

-动态分块系统:根据查询上下文和内容复杂性调整分块策略。

-与先进的 AI 模型集成:增强语义分块和前沿语言模型之间的协同作用。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/792751.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

DP优化——wqs二分

在看 wqs 二分前建议先去看另一篇博客——斜率优化，对凸包等知识点有所了解。介绍 wqs 二分最初由王钦石在他的 2012 年国家集训队论文中提出，也叫"带权二分"，或者"dp凸优化"，而从 IOI 2016 的 Aliens 题目开始，这种方法开始逐步在竞赛圈中有了一定的…

一次Java性能调优实践【代码+JVM 性能提升70%】

这是我第一次对系统进行调优，涉及代码和JVM层面的调优。如果你能看到最后的话，或许会对你日常的开发有帮助，可以避免像我一样，犯一些低级别的错误。本次调优的代码是埋点系统中的报表分析功能，小公司，开发结束后，没有Code Review环节，所以下面某些问题，也许在Code Rev…

orangepi5plus上搭建ubuntu22.04环境

本文是参考orangepi5plus官方手册进行ubuntu22.04环境搭建：Orange Pi - Orangepi（官方手册下载官网）进去之后，选择ubuntu的官方镜像，点击下载出现百度网盘的下载内容，在众多版本里面我下载了下面的文件夹（ubuntu22.04）该文件夹里面包含的后缀是.img就是ubuntu22.04的镜…

【Azure Policy】分享Policy实现对Azure Activity Log导出到Log A workspace中

问题描述使用Azure Policy服务，对公司内部全部的订阅下的Activity Log，都需要配置导出到Log A Workspace中。以下Policy规则可以实现此目的。Policy内容说明在Policy Rule部分中，选择资源的类型为 "Microsoft.Resources/subscriptions"，效果使用 DeployIfNotE…

C#/.NET/.NET Core优质学习资料，干货收藏！

前言今天大姚给大家分享一些C#/.NET/.NET Core优质学习资料，希望可以帮助到有需要的小伙伴。什么是 .NET? .NET 是一个免费的、跨平台的、开源开发人员平台，用于构建许多不同类型的应用程序。使用 .NET，可以使用多种语言、编辑器和库来构建 Web、移动、桌面、游戏和 IoT…

自我评估

这个作业属于哪个课程 https://edu.cnblogs.com/campus/fzu/SE2024这个作业要求在哪里 https://edu.cnblogs.com/campus/fzu/SE2024/homework/13243这个作业的目标熟悉Github和博客园，了解其基本操作，完善自我信息并学习Markdown的基本使用方法以及AIGC画图学号 102202132一…

2.常量变量类型转换进制转换

常量变量类型转换进制转换1.常量的使用2.变量的使用3.会强制类型转换一、常量（一）常量的分类1.概述：在代码的运行过程中，其值不会发生改变的数据2.分类：整数常量：所有整数小数常量：所有带小数点的字符常量：带单引号，有且只能有一个内容字符串常量：带双引号…

linux中tar命令的使用

tar简介在linux中tar是一个常用的工具，用于打包和解压文件，全称是tape archive。它能够将一组文件和目录打包成单个归档文件，也可以从归档文件中提取出文件和目录参数列表使用实例介绍1.要创建一个归档文件，可以使用参数 -c 和 -f ，然后指定归档文件名例如要将/home/cy…

11.面向对象(3)

MODULE 11 面向对象会定义接口会在接口中定义抽象方法,默认方法,静态方法,成员变量会调用接口中的成员会利用多态的方式new对象知道多态的前提要知道使用多态的好处会在多态的前提下,向下转型会利用instanceof判断类型一.接口(一)接口的介绍1.接口:是一个引用数据类型,是一个…

8.封装

MODULE 8 封装1.要回使用private关键字修饰成员，并知道被private修饰之后的作用（访问特点）是什么2.会使用set方法为属性赋值，使用get方法获取属性值3.会利用this关键字区分重名的成员变量和局部变量4.会利用空参构造创建对象，并知道空参构造作用5.会使用有构造创建对象…

9.面向对象(1)

MODULE 9 面向对象1.会定义静态成员以及会调用静态成员2.会使用可变参数（会给可变参数传参）3.会二分查找（手撕）4.会冒泡排序（手撕）5.会debug的使用一、static关键字（一）static的介绍以及基本使用1.概述：static是一个静态关键字2.使用：（1）修饰一个成员变量：stat…

深入了解Vite：依赖预构建原理

前言前面我们有提到Vite在开发阶段，提倡的是一个no-bundle的理念，不必与webpack那样需要先将整个项目进行打包构建。但是no-bundle的理念只适合源代码部分（我们自己写的代码），vite会将项目中的所有模块分为依赖与源码两部分。依赖：指的是一些不会变动的一些模块，如：…

语义分块:改进 AI 信息检索

相关文章