了解GraphRAG

news/2024/11/16 2:25:43/文章来源:https://www.cnblogs.com/pam-sh/p/18333591

了解GraphRAG

转载：从零实现大模型-GraphRAG，构建LLM中的关系数据库

开源地址：https://github.com/microsoft/graphrag
论文：From Local to Global: A Graph RAG Approach to Query-Focused Summarization
博客介绍：https://microsoft.github.io/graphrag/

传统RAG

　　LLM预训练和微调一般都是基于公开的互联网数据，不可能包含公司内部私有数据，如果你问有关某公司的运营情况，直接基于模型参数生成的回答可能和胡说八道没什么两样。
RAG（Retrieval-Augmented Generation，检索增强生成）的思想就是将私有数据作为参考信息传递给LLM。这些私有数据除了作为一种补充信息，也可以作为一种限制，能避免LLM产生幻觉。

　　参考信息一般以文本、图片等非结构化形式存在。

　　RAG的流程是：

首先要将文本划分成片段，然后将片段转换成向量存储到向量数据库中备用，这个向量就是这段文本语义信息的数字表示。
将用户查询转换成向量，并与所有文本片段向量进行相似度计算，取出top k个片段。
将用户查询和k个文本片段组织成特定prompt格式输入到LLM中。

GraphRAG

　　但传统的RAG仍有一些限制。

　　例如，基于某个公司的运营数据搭建RAG，由于LLM上下文大小的限制，划分的文本片段不可能太大，所以每个文本片段不可能包含太多信息。

　　如果你问某个员工去年的销售业绩，基于RAG，LLM很可能会给出准确回答，因为某个文本片段很可能包含了某个员工的年终总结信息。但如果你问该员工所在团队去年的销售情况呢？就算某个文本片段包含了该团队的销售数据，LLM也很难通过该员工找到团队的其它成员。

　　微软最近提出的GraphRAG(Graph-based Retrieval Augmented Generation) 就是解决这个问题。

　　GraphRAG就是将图和传统的RAG结合了起来。

构造知识图谱

　　图是由节点和边组成的，节点可以表示各种实体，边表示实体之间的关系。

　　GraphRAG的核心就是构造知识图谱，可以通过GPT4或者使用像llamaindex（KnowledgeGraphIndex）这样的库构造知识图谱。

　　将公司运营文档构造成知识图谱：

识别出文档中包含的实体以及实体之间的关系（员工，同事）
将实体进行聚类（同组同事）
对每个聚类进行总结（销售情况）
将实体进行向量化，转换到图向量空间
提取实体对应的原始文本，并转换成向量

查询

　　当用户提问时，首先在知识图谱中找到与用户提问语义相关的实体，同时找到与实体相关的原始文本，最后将这些信息组织成特定prompt格式输入给LLM。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/774321.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Laconic Private Set-Intersection From Pairings (2022)

Laconic Private Set-Intersection From Pairings (2022)

Laconic Private Set-Intersection From Pairings (2022)[!IMPORTANT] 论文地址：https://eprint.iacr.org/2022/529.pdf 代码地址：https://github.com/relic-toolkit/relic/tree/main/demo/psi-client-server 代码运行参考：RELIC 库学习Laconic 算法介绍 Laconic 适用于算力…

阅读更多...

供热从清洁走向智慧

供热从清洁走向智慧

清洁供热是一种以末端需求为核心的拉动式供热方式，可以通过全面实施智慧供热，实现热电协同、多能互补，以打通供热最后一公里，使供热更加智慧化、高效化、绿色化。“清洁供热是一种以末端需求为核心的拉动式供热方式，可以通过全面实施智慧供热，实现热电协同、多能互补，以…

阅读更多...

netty核心流程（一）：服务端如何建立连接

netty核心流程（一）：服务端如何建立连接

为了接收连接请求， Netty 服务端应该做些什么事情？根据Java NIO 的知识，服务端在准备接收客户端连接之前做了下面几个工作，我们可以带着问题往下看。服务端对连接请求是如何初始化的？如何把用户定义的处理逻辑 childHandler 加入到 Netty 的处理流程里？如何在 Socket …

阅读更多...

Logisim-008-16位无符号比较器

Logisim-008-16位无符号比较器

仓库地址 https://gitee.com/gitliang/logisim-to-cpu

阅读更多...

springboot项目使用自定义starter

springboot项目使用自定义starter

首先是自定义的starter部分 pom文件<?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http:…

阅读更多...

SQL执行顺序和逻辑

SQL执行顺序和逻辑

SQL执行顺序和逻辑 MySQL的执行顺序：(9) SELECT (6) SUM(聚合函数) (10) DISTINCT <select_list> (1) FROM <left_table> (3) <join_type> JOIN <right_table> (2) ON <join_condition> (4) WHERE <where_condition> …

阅读更多...

后缀数组 - half

后缀数组 - half

后缀数组后缀数组可以解决有关后缀的问题废话。那么暴力做法肯定是把每个后缀全部取出来，然后按照字典序排序，但是这样复杂度是 \(\Theta(n^2\log n)\) 的。后缀数组可以解决以下问题：最长重复子串多个串的最长公共子串不同子串个数算法详解面对这些问题，我们需要 \(3…

阅读更多...

Misc专项

Misc专项

一：文件操作与隐写 1、文件类型的识别 1、文件头完好情况：（1）file命令使用file命令识别：识别出file.doc为jpg类型（2）winhex 通过winhex工具查看文件头类型，根据文件头部内容去判断文件的类型eg:JPG类型（3）notepad++ 下载HEXeditor插件，查看文件的头部信息，和010e…

阅读更多...

zookeeper未授权访问（CVE-2014-085）

zookeeper未授权访问（CVE-2014-085）

漏洞描述默认安装配置完的zookeeper允许未授权访问，管理员未配置访问控制列表（ACL）。导致攻击者可以在默认开放的2181端口下通过执行envi命令获得大量敏感信息（系统名称、java环境）导致任意用户可以在网络不受限的情况下进行未授权访问读取数据漏洞影响 Apache ZooKeepe…

阅读更多...

如何自动实现本地AD中禁用的用户从地址列表中隐藏掉？

如何自动实现本地AD中禁用的用户从地址列表中隐藏掉？

我的博客园：https://www.cnblogs.com/CQman/ 如何自动实现本地AD中禁用的用户从地址列表中隐藏掉？需求信息：用户本地AD用户通过ADConnect同步到O365，用户想实现在本地已做同步的OU中禁用某一用户后，其可以自动实现把该用户从地址列表中隐藏掉。用户的ADConnect同步工具装在…

阅读更多...

go高并发之路——消息中间件kafka（上）

go高并发之路——消息中间件kafka（上）

一般高并发的业务都是某个时间段的请求量特别大，比如本人负责的直播业务，基本上一天就两个高峰段：早上和晚上的特定时间段。其它的时间里，流量基本都比较平稳。那么面对流量高峰，我们可以采取哪些措施呢？常见的有服务器和DB提前扩容、监控告警（盯监控）、流量削峰、加缓…

阅读更多...

数组及数组JVM内存划分day4

数组及数组JVM内存划分day4

java中第一个存储数据的容器：数组特点：1、数组的长度大小是固定的2、同一个数组中，存储的元素数据类型是一样的数组的定义语句格式：数据类型[] 数组名;举例：int[] arr; // 定义了一个可以存储int类型的一维数组，数组名叫做arr数组没有初始化，无法直接使用，数组是我们第…

阅读更多...

推荐文章

最新文章