搭建本地知识库

news/2025/2/13 12:41:33/文章来源:https://www.cnblogs.com/jiyuchen1/p/18712901

搭建知识库需要安装嵌入模型,将文件交给嵌入模型处理完后,会将结果存入向量数据库,向量数据库由软件提供,不需要安装,然后由对话大模型调用向量数据库里面的处理结果。

  • 嵌入模型:搭建知识库时,通常需要使用嵌入模型。它的作用是将文本数据(从文件解析提取出来的内容等)转化为向量表示,这些向量能够捕捉文本的语义信息,便于后续在向量空间中进行相似度计算等操作 。不过,并非所有嵌入模型都需要安装,有些模型可以通过API调用,比如OpenAI的Embedding API。
  • 文件解析:在将文件内容交给嵌入模型处理之前,一般需要先进行文件解析,将不同格式(如PDF、Word等)的文件转化为文本格式,以便嵌入模型处理。这一步骤和嵌入模型的应用紧密相关,但属于不同的处理环节。
  • 向量数据库:向量数据库用于存储由嵌入模型生成的向量数据。有些向量数据库确实不需要安装,例如云服务形式的向量数据库,用户通过API或特定接口即可使用。但也有一些向量数据库需要本地安装部署,像Milvus等,用户可以根据自身需求、数据规模、隐私要求等因素选择合适的向量数据库。
  • 对话大模型调用:通常是基于知识库(向量数据库存储的向量等数据 )进行检索和匹配,为对话大模型提供相关的上下文信息,辅助大模型生成更准确、更符合需求的回答 ,并非简单的直接调用。在实际应用中,会有一个检索和融合的过程,比如根据用户问题生成向量,在向量数据库中检索相似向量对应的文本,再将这些文本作为补充信息与问题一起输入给大模型。

使用CherryStudio搭建本地知识库

CherryStudio 不支持设置向量数据库,使用的是软件自带的向量数据库。所以这种方式搭建的知识库只能个人使用。

新建知识库

在 CherryStudio 左侧工具栏,点击知识库图标,点击添加,填写知识库名称,并选择下载好的嵌入模型,点击确定。

image-20250212115019148

向知识库添加文件

向知识库添加文件,并等待文件向量化完成

image-20250212120910582

在对话中开启知识库支持

新建一个对话,然后启用知识库,选择刚才新建的知识库。

image-20250212122533717

验证效果

image-20250212122415349

image-20250212122640118

使用AnythingLLM搭建本地知识库

安装AnythingLLM

访问AnythingLLM 官网,下载并安装

  • AnythingLLM 官网:https://anythingllm.com/desktop

设置AnythingLLM

进入全局设置,设置 对话模型、向量数据库、和嵌入模型。

image-20250213115923514

配置对话模型:这里选择前面使用ollama下载并部署的deepseek1.5B模型,如果有其他云端大模型api-key可以直接配置云端大模型。

image-20250213120053181

向量数据库:这里选择AnythingLLM自带的本地数据库LanceDB,当然有云端或者其他局域网部署的向量数据库也可以配置。

image-20250213120501626

嵌入模型:这里选择使用ollama下载并部署的嵌入模型,如果有其他云端大模型api-key可以直接配置云端大模型。

这里先使用ollama安装一个嵌入模型:nomic-embed-text 安装命令ollama pull nomic-embed-text

然后再AnythingLM中选择刚才安装的嵌入模型。

image-20250213121117852

然后新建一个工作区,并上传知识库文件

image-20250213121653027

点击上传按钮后上传文件,然后选中上传了的文件,点击 “Move to Workspace”,将文件添加到知识库中,并点击保存。

image-20250213122612160

新建一个线程,验证效果

image-20250213123448884

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/883170.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

rust学习笔记(8)

cargo cargo是一个用来帮助控制项目开发的工具 cargo.toml 这是一个用来管理项目的文件 首先是[package]部分 [package] name = "foo" version = "0.1.0" authors = ["mark"]三个基本的项目内容然后是[dependencies]部分这个部分的内容是项目需要…

DeepSeek 本地部署后如何联网搜索!

DeepSeek 本地部署后如何联网搜索,小白必看秘籍! 原创 阮小贰 阮小贰 阮小贰 科技自媒体阮小贰,AIGC拓荒人~38篇原创内容2025年02月01日 00:01 广东 还不知道如何进行DeepSeek本地部署的童鞋赶紧去看看这篇文章: 一篇文章带你搞定DeepSeek本地部署下午刚发布完 DeepSe…

C# 深度学习框架 TorchSharp 原生训练模型和图像识别-手写数字识别

目录开始使用 Torch准备 下载数据集 显示图片 加载数据集 定义网络 优化模型参数 训练模型 保存和加载模型 使用模型识别图片 教程名称:使用 C# 入门深度学习 作者:痴者工良 教程地址:https://torch.whuanle.cn 电子书仓库:https://github.com/whuanle/cs_pytorch Maomi.T…

P3834 【模板】可持久化线段树 2(主席树)

这是一道主席树的模板题,#include<iostream> #include<set> #include<map> #include<algorithm> #include<vector> #include<cmath> #include<climits> #include<cstring> #define int long long const int N = 1e6+5; using…

包括H2O的人形机器人相关论文总结

1. 前言 这篇博客主要用于记录包括H2O的人形机器人相关论文总结。 一方面便于日后自己的温故学习,另一方面也便于大家的学习和交流。 如有不对之处,欢迎评论区指出错误,你我共同进步学习! 2. 正文 2.0 SMPL Skinned Multi-Person Linear (SMPL) Model 详细查看:https://bl…

【守护大地的安宁】地质灾害防治知多少?

当我们谈及自然灾害,地质灾害总是以其突发性和破坏力给人类社会带来严峻挑战。了解地质灾害的本质、防治工作的基本原则以及管理的综合体系,对于提升社会整体的抵御能力至关重要。今天,就让我们一起深入探讨地质灾害的奥秘,以及如何有效守护我们脚下的这片土地。地质灾害:…

DeepSeek R1,本地部署!支持WebUI

DeepSeek R1,本地部署才是王道!支持WebUI原创 阮小贰 阮小贰 阮小贰 科技自媒体阮小贰,AIGC拓荒人~38篇原创内容2025年01月31日 17:52 广东 DeepSeek R1本地部署,享受无限制、高隐私的AI体验! 核心内容:DeepSeek全球下载榜单登顶,流量巨大。DeepSeek R1是什么?De…

LLM4Rec:字节HLLM

背景 目前主流的推荐模型都是ID-based,这种ID-based的模型依赖user合item的交互信息,无法利用item和user的多模态信息,对冷启动不友好。 随着近年来LLM的突破性进展, 业界也在不断探索LLM在推荐系统中的应用, 这里大概可以分成三类:信息增强: 利用LLM为推荐系统提供一些精细…

安川SCARA机械手维修知识归纳

在工业自动化领域,安川机器人(YASKAWA机器人)以其高精度和可靠性著称,尤其是其SCARA机器人广泛应用于装配、搬运和分拣等任务。然而,即便是最可靠的设备也难免会出现故障。当安川SCARA机器人齿轮箱不转时,通常表现为机器人无法正常执行动作,或动作过程中出现卡顿、异响等…

2025-02-13.防流氓软件篡改主页

近期本人Windows 11启动后浏览器主页总被修改,禁用某些启动进程后问题仍没有彻底解决。具体现象为: chrome收藏夹的百度链接变成:bd.dhyto.com/lbd06 chrome每次启动,打开首页:360导航_一个主页,整个世界http://hao360.hjttif.com/dhhj edge每次启动,打开首页:http://p…

支付宝云Serveless+豆包AI实现AI日语学习APP

1. 引言 最近学日语,发现动词、形容词的变形规则又多又复杂,在不同语境里变化也不一样,句子结构和语法也很麻烦。为了提高学习效率,决定开发基于AI的日语学习APP,借助 AI 进行辅助学习,目前已经完成单词分析、句子结构分析、跟读功能。2. 技术栈 1. 支付宝云Serve less;…

DeepSeek V3/R1满血版,上线华为云

昇腾云服务已适配DeepSeek系列模型,欢迎广大开发者使用。摘要:昇腾云服务已适配DeepSeek系列模型,欢迎广大开发者使用。 DeepSeek V3/R1 671B旗舰模型(满血版),通常需要高端GPU进行推理,现在基于华为云昇腾云服务的全栈优化适配,可获得持平全球高端GPU部署模型的效果,…