备忘,LangChain建立本地知识库的几个要点

本地知识库可以解决本地资源与AI结合的问题,为下一步应用管理已有资产奠定基础。 本地知识库的建立可参考LangChain结合通义千问的自建知识库 (二)、(三)、(四)
本文主要记录两个方面的问题
1 搭建过程中遇到的坑
2 向量是数据库改成ES7

1 搭建过程中遇到的坑
1) 安装bce-embedding-base_v1模型
需要用git clone到本地,但由于模型比较大,需要先安装git lfs管理大型的文件,再克隆
sudo apt-get install git-lfs

安装成功后,再进入预备安装模型的目录下,执行clone
git clone https://www.modelscope.cn/maidalun/bce-embedding-base_v1.git

  1. nltk corpora语料库缺失
    报错样例如下:
    在这里插入图片描述
    缺少 两个库 punkt和 averaged_perceptron_tagger
    解决的方式是离线下载,参考NLTK:离线安装punkt

2 向量是数据库改成ES7
原博中使用Chroma,但我已经装了ES7,所以改用ES7作为向量数据库
原博中两部分代码,导入本地知识库和应用本地知识库,修改如下

导入本地知识库

import time
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import UnstructuredFileLoader
from langchain_community.embeddings.huggingface import HuggingFaceEmbeddings
from langchain_community.vectorstores import ElasticVectorSearchtime_list = []
t = time.time()# loader = UnstructuredFileLoader("/home/cfets/AI/textwarefare/test.txt")
loader = UnstructuredFileLoader("/home/cfets/AI/textwarefare/cmtest.txt")
data = loader.load()# 文本切分去。
text_splitter = RecursiveCharacterTextSplitter(chunk_size=50, chunk_overlap=0)
split_docs = text_splitter.split_documents(data)
print(split_docs)model_name = r"/home/cfets/AI/model/bce-embedding-base_v1"
model_kwargs = {'device': 'cpu'}
encode_kwargs = {'normalize_embeddings': False}embeddings = HuggingFaceEmbeddings(model_name=model_name,model_kwargs=model_kwargs,encode_kwargs=encode_kwargs)# 初始化加载器 构建本地知识向量库
# db = Chroma.from_documents(split_docs, embeddings, persist_directory="./chroma/bu_test_bec")# 使用ES
db = ElasticVectorSearch.from_documents(split_docs,embeddings,elasticsearch_url="http://localhost:9200",index_name="elastic-ai-test",
)# 持久化
#  db.persist()
print(db.client.info())# 打印时间##
time_list.append(time.time() - t)
print(time.time() - t)

应用本地知识库

import dashscope
from dashscope import Generation
from dashscope.api_entities.dashscope_response import Role
from http import HTTPStatus
from langchain_community.vectorstores import Chroma
from langchain_community.vectorstores import ElasticVectorSearch
from langchain_community.embeddings.huggingface import HuggingFaceEmbeddingsdashscope.api_key = XXXXXXdef conversation_mutual():messages = []# 引入模型model_name = r"/home/cfets/AI/model/bce-embedding-base_v1"model_kwargs = {'device': 'cpu'}encode_kwargs = {'normalize_embeddings': False}embeddings = HuggingFaceEmbeddings(model_name=model_name,model_kwargs=model_kwargs,encode_kwargs=encode_kwargs)# 使用chroma本地库# db = Chroma(persist_directory="./chroma/bu_cmtest_bec", embedding_function=embeddings)# 使用elastic searchmy_index = "es_akshare-api"db = ElasticVectorSearch(embedding=embeddings,elasticsearch_url="http://localhost:9200",index_name=my_index,)while True:message = input('user:')# 引入本地库similarDocs = db.similarity_search(message, k=5)summary_prompt = "".join([doc.page_content for doc in similarDocs])print(summary_prompt)send_message = f"下面的信息({summary_prompt})是否有这个问题({message})有关" \f",如果你觉得无关请告诉我无法根据提供的上下文回答'{message}'这个问题,简要回答即可" \f",否则请根据{summary_prompt}对{message}的问题进行回答"messages.append({'role': Role.USER, 'content': message})messages.append({'role': Role.USER, 'content': send_message})  # 按本地库回复whole_message = ''# 切换到通义模型responses = Generation.call(Generation.Models.qwen_plus, messages=messages, result_format='message', stream=True,incremental_output=True)print('system:', end='')for response in responses:if response.status_code == HTTPStatus.OK:whole_message += response.output.choices[0]['message']['content']print(response.output.choices[0]['message']['content'], end='')else:print('Request id: %s, Status code: %s, error code: %s, error message: %s' % (response.request_id, response.status_code,response.code, response.message))print()messages.append({'role': 'assistant', 'content': whole_message})print('\n')if __name__ == '__main__':conversation_mutual()

使用效果

导入本地知识库
在这里插入图片描述

执行本地库效果
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/600397.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

分布式 SpringCloudAlibaba、Feign与RabbitMQ实现MySQL到ES数据同步

文章目录 ⛄引言一、思路分析⛅实现方式⚡框架选择 二、实现数据同步⌚需求分析⏰搭建环境⚡核心源码 三、测试四、源码获取⛵小结 ⛄引言 本文参考黑马 分布式Elastic search Elasticsearch是一款非常强大的开源搜索引擎,具备非常多强大功能,可以帮助…

OJ在线比赛系统(人员管理、赛题发布、在线提交、题目审核、成绩录入)

系统功能设计 技术栈:springboot,jdk8,vue3,element-plus,mybatis-plus 1.java后端系统 首先需要学生通过前端注册页面和java后端系统将个人信息写入数据库,包含学号、姓名、班级以及需要爬取网站的相关信息(例如AtCoder账号信…

(表征学习论文阅读)A Simple Framework for Contrastive Learning of Visual Representations

Chen T, Kornblith S, Norouzi M, et al. A simple framework for contrastive learning of visual representations[C]//International conference on machine learning. PMLR, 2020: 1597-1607. 1. 前言 本文作者为了了解对比学习是如何学习到有效的表征,对本文所…

JdbcTemplate

1.JdbcTemplate概述 它是spring框架中提供的一个对象,是对原始繁琐的Jdbc API对象的简单封装。spring框架为我们提供了很多的操作模板类。例如:操作关系型数据的JdbcTemplate和HibernateTemplate,操作nosql数据库的RedisTemplate,…

rpc的通信流程

rpc能实现调用远程方法就跟调用本地(同一个项目中的方法)一样,发起调用请求的那一方叫做服务调用方,被调用的一方叫做服务提供方。 接下来就和大家分享一下调用过程的流程和细节。 传输协议 既然是远程调用那肯定就需要通过网络…

探索Python爬虫:解析网页数据的神奇之旅

在当今数字化时代,信息的获取变得比以往任何时候都更加便捷。然而,即使在互联网上,获取数据也需要通过正确的工具和技术。Python爬虫就是这样一种强大的工具,它可以让我们轻松地从互联网上收集数据,并将其转化为有用的…

格雷希尔GripSeal用于自动化机械手抓取的防爆阀快速连机器,提高新能源电池包的生产效能

透气防爆阀是当新能源车PACK电池包内部气压过高时,可以释放内部气体避免电池包因压力过高而引发爆炸的安全装置。而新能源汽车在当今社会的普及度越来越高,自动化生产成为了汽车行业的常态,因此,透气防爆阀在进行自动化气密性测试…

如何在 Windows上安装 Python

系列文章目录 作者:i阿极 作者简介:数据分析领域优质创作者、多项比赛获奖者:博主个人首页 😊😊😊如果觉得文章不错或能帮助到你学习,可以点赞👍收藏📁评论📒…

Cesium中加载GaussianSplatting模型

Gaussian Splatting Gaussian Splatting (高斯泼溅) 是近段时间,三维视觉领域热度极高的一项突破性工作。 2020 年提出的 NeRF 等辐射场方法彻底改变了多张照片或视频主导的场景新视角合成的算法生态,但训练、渲染的速度与质量仍存在瓶颈。Gaussian Sp…

算法——哈希表

T04BF 👋专栏: 算法|JAVA|MySQL|C语言 🫵 小比特 大梦想 此篇文章与大家分享分治算法关于哈希表相关算法的专题 如果有不足的或者错误的请您指出! 1.哈希表简介 哈希实际上可以简单认为是一个存储数据的容器,用于快速查找某个元素,时间复杂度仅为O(1),怎…

A股风格因子看板(2024.4第1期)

该因子看板跟踪A股风格因子,该因子主要解释沪深两市的市场收益、刻画市场风格趋势的系列风格因子,用以分析市场风格切换、组合风格景 露等。 今日为该因子跟踪第1期,指数组合数据截止日2024-03-31,要点如下 近1年A股风格因子收益走…

vue快速入门(十)v-bind动态属性绑定

注释很详细&#xff0c;直接上代码 上一篇 新增内容 图片切换逻辑动态绑定的完整写法与简写方法 源码 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice…