使用 Neo4j 和 LangChain 集成非结构化知识图增强 QA

目前基于大模型的信息检索有两种方法,一种是基于微调的方法,一种是基于 RAG 的方法。

信息检索和知识提取是一个不断发展的领域,随着大型语言模型(LLM)和知识图的出现,这一领域发生了显着的变化,特别是在多跳问答的背景下。

接下来我们继续深入,跟着文章完成一个项目,该项目利用 Neo4j 矢量索引和 Neo4j 图数据库的强大功能来实现检索增强生成系统,旨在为用户查询提供精确且上下文丰富的答案。

该系统采用向量相似性搜索来检索非结构化信息,同时访问图数据库来提取结构化数据,以确保响应不仅全面,而且锚定在验证过的知识中。

这种方法对于解决多跳问题尤其重要,因为单个查询可能需要分解为多个子问题,并且可能需要来自大量文档的信息才能生成准确的答案。

图片

在数据既丰富又复杂的时代,上述系统成为一个至关重要的工具,它确保用户查询得到的答案既包含广泛的知识,又保持验证准确性,无缝地弥合了非结构化数据和结构化知识图之间的鸿沟。

最后一步,系统将所检索到的非结构化和结构化信息传递给新的大型语言模型 Mistral-7b,用于文本生成。这种集成确保生成的响应不仅依赖于模型中内置的广泛知识,还经过特定实时数据的微调和丰富,这些数据来自向量和图形数据库的检索,从而提供更加详尽、准确和与上下文相关的信息,以提升用户体验。

用通俗易懂方式讲解系列

  • 用通俗易懂的方式讲解:自然语言处理初学者指南(附1000页的PPT讲解)
  • 用通俗易懂的方式讲解:NLP 这样学习才是正确路线
  • 用通俗易懂的方式讲解:28张图全解深度学习知识!
  • 用通俗易懂的方式讲解:不用再找了,这就是 NLP 方向最全面试题库
  • 用通俗易懂的方式讲解:实体关系抽取入门教程
  • 用通俗易懂的方式讲解:灵魂 20 问帮你彻底搞定Transformer
  • 用通俗易懂的方式讲解:大模型算法面经指南(附答案)
  • 用通俗易懂的方式讲解:十分钟部署清华 ChatGLM-6B,实测效果超预期
  • 用通俗易懂的方式讲解:内容讲解+代码案例,轻松掌握大模型应用框架 LangChain
  • 用通俗易懂的方式讲解:如何用大语言模型构建一个知识问答系统
  • 用通俗易懂的方式讲解:最全的大模型 RAG 技术概览
  • 用通俗易懂的方式讲解:利用 LangChain 和 Neo4j 向量索引,构建一个RAG应用程序

技术交流群

前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~

我们建了NLP面试与技术交流群, 想要进交流群、需要源码&资料、提升技术的同学,可以直接加微信号:mlc2060。加的时候备注一下:研究方向 +学校/公司+CSDN,即可。然后就可以拉你进群了。

方式①、添加微信号:mlc2060,备注:技术交流
方式②、微信搜索公众号:机器学习社区,后台回复:技术交流

在这里插入图片描述

01 GraphCypherQAChain

GraphCypherQAChain 类在自然语言问题查询图数据库(特别是 Neo4j)领域发挥着重要作用。它利用 LLM 从用户输入的问题生成 Cypher 查询,然后执行这些查询在 Neo4j 图形数据库中,并根据查询结果提供答案。

这一工具使用户能够检索特定数据,而无需编写复杂的 Cypher 查询,从而使存储在图形数据库中的数据更容易访问和互动。

02 Mistral 7B

Mistral 7B 是最新的大型语言模型,因其在一系列基准测试中的卓越性能而受到认可,展示了处理各种语言任务和查询的熟练程度,如下图所示。

图片

在检索增强生成 (RAG) 架构中,Mistral 7B 发挥着关键作用,它根据向量和图形搜索检索到的信息合成和生成文本,确保输出不仅上下文丰富,而且能够根据用户的查询精确定制。它有效地弥合了非结构化数据和结构化知识图之间的差距,提供混合了预先训练的知识和实时、经过验证的数据的答案。

03 执行

让我们从安装依赖项开始。

pip install langchain openai wikipedia tiktoken neo4j python-dotenv transformers
pip install -U sagemaker

Neo4j 向量索引

我们首先导入必要的库和模块,为数据集准备、Neo4j 向量索引的接口以及使用 Mistral 7B 的文本生成功能奠定基础。使用 dotenv,它可以安全地加载环境变量,保护 OpenAI API 和 Neo4j 数据库的敏感信息。

import os
import re
from langchain.vectorstores.neo4j_vector import Neo4jVector
from langchain.document_loaders import WikipediaLoader
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.text_splitter import CharacterTextSplitter, RecursiveCharacterTextSplitter
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
from dotenv import load_dotenvload_dotenv()
os.environ["OPENAI_API_KEY"] = os.getenv('OPENAI_API_KEY')
os.environ["NEO4J_URI"] = os.getenv('NEO4J_URI')
os.environ["NEO4J_USERNAME"] = os.getenv('NEO4J_USERNAME')
os.environ["NEO4J_PASSWORD"] = os.getenv('NEO4J_PASSWORD')

在这里,我们使用 Leonhard Euler 的维基百科页面来进行我们的实验。我们使用该 bert-base-uncased 模型来标记文本。WikipediaLoader 加载指定页面的原始内容,然后使用 LangChain 的 RecursiveCharacterTextSplitter 将其分成更小的文本片段。

该拆分器确保每个块最大化为 200 个标记,其中重叠 20 个标记,遵守嵌入模型的上下文窗口限制,并确保不会丢失上下文的连续性。

tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")def bert_len(text):tokens = tokenizer.encode(text)return len(tokens)raw_documents = WikipediaLoader(query="Leonhard Euler").load()
text_splitter = RecursiveCharacterTextSplitter(chunk_size = 200,chunk_overlap  = 20,length_function = bert_len,separators=['\n\n', '\n', ' ', ''],)documents = text_splitter.create_documents([raw_documents[0].page_content])

分块文档作为节点实例化到 Neo4j 向量索引中。它使用 Neo4j 图数据库和 OpenAI 嵌入的核心功能来构建该向量索引。

# Instantiate Neo4j vector from documents
neo4j_vector = Neo4jVector.from_documents(documents,OpenAIEmbeddings(),url=os.environ["NEO4J_URI"],username=os.environ["NEO4J_USERNAME"],password=os.environ["NEO4J_PASSWORD"]
)

在提取向量索引中的文档后,我们对示例用户查询执行向量相似度搜索,并检索前 2 个最相似的文档。

query = "Who were the siblings of Leonhard Euler?"
vector_results = neo4j_vector.similarity_search(query, k=2)
for i, res in enumerate(vector_results):print(res.page_content)if i != len(vector_results)-1:print()
vector_result = vector_results[0].page_content

图片

构建知识图谱

受到 NaLLM 项目的高度启发,我们使用他们的开源项目从非结构化数据构建知识图。

下面是使用 Leonhard Euler 的维基百科文章中的单个文档块构建的知识图。

图片

在深入研究该项目可以学到很多关于使用 LLM 构建知识图谱的知识。例如,以下是从非结构化文本中捕获实体和关系的提示:

"""
You are a data scientist working for a company that is building a graph database. Your task is to extract information from data and convert it into a graph database.
Provide a set of Nodes in the form [ENTITY_ID, TYPE, PROPERTIES] and a set of relationships in the form [ENTITY_ID_1, RELATIONSHIP, ENTITY_ID_2, PROPERTIES].
It is important that the ENTITY_ID_1 and ENTITY_ID_2 exists as nodes with a matching ENTITY_ID. If you can't pair a relationship with a pair of nodes don't add it.
When you find a node or relationship you want to add try to create a generic TYPE for it that  describes the entity you can also think of it as a label.Example:
Data: Alice lawyer and is 25 years old and Bob is her roommate since 2001. Bob works as a journalist. Alice owns a the webpage www.alice.com and Bob owns the webpage www.bob.com.
Nodes: ["alice", "Person", {"age": 25, "occupation": "lawyer", "name":"Alice"}], ["bob", "Person", {"occupation": "journalist", "name": "Bob"}], ["alice.com", "Webpage", {"url": "www.alice.com"}], ["bob.com", "Webpage", {"url": "www.bob.com"}]
Relationships: ["alice", "roommate", "bob", {"start": 2021}], ["alice", "owns", "alice.com", {}], ["bob", "owns", "bob.com", {}]
"""

有很多有趣的功能,同时可以进行改进。

Neo4j DB QA 链

接下来,我们导入必要的库来设置 Neo4j DB QA 链。

from langchain.chat_models import ChatOpenAI
from langchain.chains import GraphCypherQAChain
from langchain.graphs import Neo4jGraph

构建图表后,我们需要连接到 Neo4jGraph 实例并可视化模式。

graph = Neo4jGraph(url=os.environ["NEO4J_URI"], username=os.environ["NEO4J_USERNAME"], password=os.environ["NEO4J_PASSWORD"]
)print(graph.schema)
Node properties are the following:
[{'labels': 'Person', 'properties': [{'property': 'name', 'type': 'STRING'}, 
{'property': 'nationality', 'type': 'STRING'}, 
{'property': 'death_date', 'type': 'STRING'}, 
{'property': 'birth_date', 'type': 'STRING'}]}, 
{'labels': 'Location', 'properties': [{'property': 'name', 'type': 'STRING'}]}, 
{'labels': 'Organization', 'properties': [{'property': 'name', 'type': 'STRING'}]}, 
{'labels': 'Publication', 'properties': [{'property': 'name', 'type': 'STRING'}]}]Relationship properties are the following:
[]
The relationships are the following:
['(:Person)-[:worked_at]->(:Organization)', 
'(:Person)-[:influenced_by]->(:Person)', 
'(:Person)-[:born_in]->(:Location)', 
'(:Person)-[:lived_in]->(:Location)', 
'(:Person)-[:child_of]->(:Person)', 
'(:Person)-[:sibling_of]->(:Person)', 
'(:Person)-[:published]->(:Publication)']

抽象 GraphCypherQAChain 所有细节并输出自然语言问题(NLQ)的自然语言响应。然而,在内部,它使用 LLM 生成该问题的 Cypher 查询,并从图形数据库中检索结果,最后使用该结果生成最终的自然语言响应,再次使用 LLM。

chain = GraphCypherQAChain.from_llm(ChatOpenAI(temperature=0), graph=graph, verbose=True
)graph_result = chain.run("Who were the siblings of Leonhard Euler?")

图片

graph_result
'The siblings of Leonhard Euler were Maria Magdalena and Anna Maria.'

Mistral-7b-指令

我们在 AWS SageMaker 环境中从 Hugging Face 设置 Mistral-7B 终端节点。

import json
import sagemaker
import boto3
from sagemaker.huggingface import HuggingFaceModel, get_huggingface_llm_image_uritry:role = sagemaker.get_execution_role()
except ValueError:iam = boto3.client('iam')role = iam.get_role(RoleName='sagemaker_execution_role')['Role']['Arn']hub = {'HF_MODEL_ID':'mistralai/Mistral-7B-Instruct-v0.1','SM_NUM_GPUS': json.dumps(1)
}huggingface_model = HuggingFaceModel(image_uri=get_huggingface_llm_image_uri("huggingface",version="1.1.0"),env=hub,role=role, 
)

最终响应是通过构造提示来制作的,该提示包括指令、向量索引中的相关数据、图形数据库中的相关信息以及用户的查询。

然后将此提示传递给 Mistral-7b 模型,模型根据提供的信息生成有意义且准确的响应。

mistral7b_predictor = huggingface_model.deploy(initial_instance_count=1,instance_type="ml.g5.4xlarge",container_startup_health_check_timeout=300,
)query = "Who were the siblings of Leonhard Euler?"
final_prompt = f"""You are a helpful question-answering agent. Your task is to analyze 
and synthesize information from two sources: the top result from a similarity search 
(unstructured information) and relevant data from a graph database (structured information). 
Given the user's query: {query}, provide a meaningful and efficient answer based 
on the insights derived from the following data:Unstructured information: {vector_result}. 
Structured information: {graph_result}.
"""response = mistral7b_predictor.predict({"inputs": final_prompt,
})print(re.search(r"Answer: (.+)", response[0]['generated_text']).group(1))
The siblings of Leonhard Euler were Maria Magdalena and Anna Maria.

要点

Neo4j 向量检索与 GraphCypherQAChainMistral-7b 的集成提供了一个强大的系统来处理复杂数据,有效地弥合了大量非结构化数据和复杂的图形知识之间的差距,通过综合两个数据源的信息,为用户查询提供全面、准确的响应。

利用 Neo4j 进行向量相似性搜索和图形数据库检索,可确保生成的响应不仅通过 Mistral-7b 的大量预先训练的知识获得信息,而且还通过来自向量和图形数据库的实时数据进行上下文丰富和验证。

最后,作者的目标是在未来的实验中尝试多跳查询,因为最初建立模块化管道对于适应快速发展的人工智能领域是必要的。

04 总结

该项目强调了 Neo4j Vector Index 和 LangChain 的有效组合,GraphCypherQAChain 分别可以浏览非结构化数据和图形知识,然后使用 Mistral-7b 生成明智且准确的响应。

通过使用 Neo4j 从向量索引和图形数据库检索相关信息,系统确保生成的响应不仅上下文丰富,而且锚定在经过验证的实时知识中。

该实现展示了检索增强生成的实际应用,其中利用来自不同数据源的综合信息来生成响应,这些响应是预先训练的知识和特定的实时数据的和谐混合,从而提高了预测的准确性和相关性。对用户查询的响应。

参考资料

https://medium.com/neo4j/enhanced-qa-integrating-unstructured-and-graph-knowledge-using-neo4j-and-langchain-6abf6fc24c27

https://github.com/neo4j/NaLLM/tree/main

https://medium.com/neo4j/harnessing-large-language-models-with-neo4j-306ccbdd2867

https://medium.com/neo4j/knowledge-graphs-llms-fine-tuning-vs-retrieval-augmented-generation-30e875d63a35

https://medium.com/neo4j/knowledge-graphs-llms-multi-hop-question-answering-322113f53f51

https://medium.com/neo4j/langchain-library-adds-full-support-for-neo4j-vector-index-fa94b8eab334

https://mistral.ai/news/announcing-mistral-7b/

https://www.youtube.com/watch?v=Hg4ahTQlBm0

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/413277.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

接近8000字的SpringSpring常用注解总结!安排

接近8000字的Spring/Spring常用注解总结!安排 为什么要写这篇文章? 最近看到网上有一篇关于 SpringBoot 常用注解的文章被转载的比较多,我看了文章内容之后属实觉得质量有点低,并且有点会误导没有太多实际使用经验的人&#xff…

南京观海微电子----Verilog流水线设计——Pipeline

1. 前言 在工程师实际开发过程中,可能会经常遇到这样的需求:数据从数据源端不断地持续输入FPGA,FPGA需要对数据进行处理,最后将处理好的数据输出至客户端。 在数据处理过程中,可能需要一系列的处理步骤。比如常规的信…

2023 China DevOpsDays(DOD) DXCon 国际数字化转型与创新管理企业峰会:核心内容与学习收获(附大会核心PPT下载)

随着科技的飞速发展,数字化转型已成为企业持续发展的必经之路。2023年的China DevOpsDays & DXCon国际数字化转型与创新管理企业峰会,汇集了业界顶尖的专家、学者和企业领袖,共同探讨数字化转型的最新趋势和实践。本文将深入剖析大会的核…

记一次DateTimeFormat注解的坑

记一次DateTimeFormat注解的坑 背景:在用Echarts做图表时,前端传两个日期参数,获取日期区间的图表数据。想遵循RESTful风格,所以使用get请求获取date参数。前端读取当前日期,将七天前日期和当前日期作为参数传给后端&…

springmvc上传与下载

文件上传 结构图 导入依赖 <dependency><groupId>jstl</groupId><artifactId>jstl</artifactId><version>1.2</version></dependency><dependency><groupId>org.springframework</groupId><artifactId…

git提交文本或者word到git教程,git创建仓库时候自带

简易的命令行入门教程: Git 全局设置: git config --global user.name “XX” git config --global user.email “XXXqq.com” 创建 git 仓库: mkdir test cd test git init touch README.md git add README.md git commit -m “first commit” git remote add origin https:…

C++系统笔记教程----vscode远程连接ssh

C系统笔记教程 文章目录 C系统笔记教程前言开发环境配置总结 前言 开发环境配置 Ubuntu20.24VScode 如果没有linux系统&#xff0c;但是想用其编译&#xff0c;可以使用ssh远程连接。 首先进入vscode,打开远程连接窗口&#xff08;蓝色的小箭头这&#xff09; 选择连接到主机…

红队打靶练习:NULLBYTE: 1

目录 信息收集 1、arp 2、nmap 3、nikto 4、whatweb 目录探测 1、dirsearch 2、gobuster WEB web信息收集 图片信息收集 hydra爆破 sql注入 闭合 爆库 爆表 爆列 爆字段 hashcat SSH登录 提权 信息收集 1、arp ┌──(root㉿ru)-[~/kali] └─# arp-scan…

ChatGPT 未来学习手册

原文&#xff1a;Learn ChatGPT: The Future of Learning 译者&#xff1a;飞龙 协议&#xff1a;CC BY-NC-SA 4.0 “学习 ChatGPT”是任何对人工智能在教育中的作用感兴趣的人必读的书。这本开创性的书探讨了 ChatGPT 的潜力&#xff0c;这是一个强大的人工智能平台&#xff0…

LeetCode、2336. 无限集中的最小数字(中等,小顶堆)

文章目录 前言LeetCode、2336. 无限集中的最小数字题目链接及类型思路代码题解 前言 博主所有博客文件目录索引&#xff1a;博客目录索引(持续更新) LeetCode、2336. 无限集中的最小数字 题目链接及类型 题目链接&#xff1a;2336. 无限集中的最小数字 类型&#xff1a;数据…

uni-app中代理的两种配置方式

方式一: 在项目的 manifest.json 文件中点击 源码视图 在最底部的vue版本下编写代理代码 方式二: 在项目中创建 vue.config.js 文件然后进行配置 在页面中发起请求 完整的url&#xff1a;http://c.m.163.com/recommend/getChanListNews?channelT1457068979049&size10 …

【GoLang入门教程】Go语言几种标准库介绍(五)

如何解决大模型的「幻觉」问题&#xff1f; 文章目录 如何解决大模型的「幻觉」问题&#xff1f;前言几种库image库 (常见图形格式的访问及生成)关键概念和类型&#xff1a;示例 IO库示例 math库(数学库)常用的函数和常量&#xff1a;示例 总结专栏集锦写在最后 前言 上一篇&a…