搭建本地知识库-编程知识

搭建本地知识库

news/2025/2/13 12:41:33/文章来源:https://www.cnblogs.com/jiyuchen1/p/18712901

搭建知识库需要安装嵌入模型，将文件交给嵌入模型处理完后，会将结果存入向量数据库，向量数据库由软件提供，不需要安装，然后由对话大模型调用向量数据库里面的处理结果。

嵌入模型：搭建知识库时，通常需要使用嵌入模型。它的作用是将文本数据（从文件解析提取出来的内容等）转化为向量表示，这些向量能够捕捉文本的语义信息，便于后续在向量空间中进行相似度计算等操作。不过，并非所有嵌入模型都需要安装，有些模型可以通过API调用，比如OpenAI的Embedding API。

文件解析：在将文件内容交给嵌入模型处理之前，一般需要先进行文件解析，将不同格式（如PDF、Word等）的文件转化为文本格式，以便嵌入模型处理。这一步骤和嵌入模型的应用紧密相关，但属于不同的处理环节。

向量数据库：向量数据库用于存储由嵌入模型生成的向量数据。有些向量数据库确实不需要安装，例如云服务形式的向量数据库，用户通过API或特定接口即可使用。但也有一些向量数据库需要本地安装部署，像Milvus等，用户可以根据自身需求、数据规模、隐私要求等因素选择合适的向量数据库。

对话大模型调用：通常是基于知识库（向量数据库存储的向量等数据）进行检索和匹配，为对话大模型提供相关的上下文信息，辅助大模型生成更准确、更符合需求的回答，并非简单的直接调用。在实际应用中，会有一个检索和融合的过程，比如根据用户问题生成向量，在向量数据库中检索相似向量对应的文本，再将这些文本作为补充信息与问题一起输入给大模型。

使用CherryStudio搭建本地知识库

CherryStudio 不支持设置向量数据库，使用的是软件自带的向量数据库。所以这种方式搭建的知识库只能个人使用。

新建知识库

在 CherryStudio 左侧工具栏，点击知识库图标，点击添加，填写知识库名称，并选择下载好的嵌入模型，点击确定。

向知识库添加文件

向知识库添加文件，并等待文件向量化完成

在对话中开启知识库支持

新建一个对话，然后启用知识库，选择刚才新建的知识库。

验证效果

使用AnythingLLM搭建本地知识库

安装AnythingLLM

访问AnythingLLM 官网，下载并安装

AnythingLLM 官网：https://anythingllm.com/desktop

设置AnythingLLM

进入全局设置，设置对话模型、向量数据库、和嵌入模型。

配置对话模型：这里选择前面使用ollama下载并部署的deepseek1.5B模型，如果有其他云端大模型api-key可以直接配置云端大模型。

向量数据库：这里选择AnythingLLM自带的本地数据库LanceDB，当然有云端或者其他局域网部署的向量数据库也可以配置。

嵌入模型：这里选择使用ollama下载并部署的嵌入模型，如果有其他云端大模型api-key可以直接配置云端大模型。

这里先使用ollama安装一个嵌入模型：nomic-embed-text 安装命令ollama pull nomic-embed-text

然后再AnythingLM中选择刚才安装的嵌入模型。

然后新建一个工作区，并上传知识库文件

点击上传按钮后上传文件，然后选中上传了的文件，点击 “Move to Workspace”，将文件添加到知识库中，并点击保存。

新建一个线程，验证效果

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/883170.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

rust学习笔记(8)

cargo cargo是一个用来帮助控制项目开发的工具 cargo.toml 这是一个用来管理项目的文件首先是[package]部分 [package] name = "foo" version = "0.1.0" authors = ["mark"]三个基本的项目内容然后是[dependencies]部分这个部分的内容是项目需要…

DeepSeek 本地部署后如何联网搜索！

DeepSeek 本地部署后如何联网搜索，小白必看秘籍！原创阮小贰阮小贰阮小贰科技自媒体阮小贰，AIGC拓荒人~38篇原创内容2025年02月01日 00:01 广东还不知道如何进行DeepSeek本地部署的童鞋赶紧去看看这篇文章：一篇文章带你搞定DeepSeek本地部署下午刚发布完 DeepSe…

C# 深度学习框架 TorchSharp 原生训练模型和图像识别-手写数字识别

目录开始使用 Torch准备下载数据集显示图片加载数据集定义网络优化模型参数训练模型保存和加载模型使用模型识别图片教程名称：使用 C# 入门深度学习作者：痴者工良教程地址：https://torch.whuanle.cn 电子书仓库：https://github.com/whuanle/cs_pytorch Maomi.T…

P3834 【模板】可持久化线段树 2（主席树）

这是一道主席树的模板题，#include<iostream> #include<set> #include<map> #include<algorithm> #include<vector> #include<cmath> #include<climits> #include<cstring> #define int long long const int N = 1e6+5; using…

包括H2O的人形机器人相关论文总结

1. 前言这篇博客主要用于记录包括H2O的人形机器人相关论文总结。一方面便于日后自己的温故学习，另一方面也便于大家的学习和交流。如有不对之处，欢迎评论区指出错误，你我共同进步学习！ 2. 正文 2.0 SMPL Skinned Multi-Person Linear (SMPL) Model 详细查看：https://bl…

【守护大地的安宁】地质灾害防治知多少？

当我们谈及自然灾害，地质灾害总是以其突发性和破坏力给人类社会带来严峻挑战。了解地质灾害的本质、防治工作的基本原则以及管理的综合体系，对于提升社会整体的抵御能力至关重要。今天，就让我们一起深入探讨地质灾害的奥秘，以及如何有效守护我们脚下的这片土地。地质灾害：…

DeepSeek R1，本地部署！支持WebUI

DeepSeek R1，本地部署才是王道！支持WebUI原创阮小贰阮小贰阮小贰科技自媒体阮小贰，AIGC拓荒人~38篇原创内容2025年01月31日 17:52 广东 DeepSeek R1本地部署，享受无限制、高隐私的AI体验！核心内容：DeepSeek全球下载榜单登顶，流量巨大。DeepSeek R1是什么？De…

LLM4Rec：字节HLLM

背景目前主流的推荐模型都是ID-based，这种ID-based的模型依赖user合item的交互信息，无法利用item和user的多模态信息，对冷启动不友好。随着近年来LLM的突破性进展, 业界也在不断探索LLM在推荐系统中的应用, 这里大概可以分成三类:信息增强: 利用LLM为推荐系统提供一些精细…

安川SCARA机械手维修知识归纳

在工业自动化领域，安川机器人（YASKAWA机器人）以其高精度和可靠性著称，尤其是其SCARA机器人广泛应用于装配、搬运和分拣等任务。然而，即便是最可靠的设备也难免会出现故障。当安川SCARA机器人齿轮箱不转时，通常表现为机器人无法正常执行动作，或动作过程中出现卡顿、异响等…

2025-02-13.防流氓软件篡改主页

近期本人Windows 11启动后浏览器主页总被修改，禁用某些启动进程后问题仍没有彻底解决。具体现象为： chrome收藏夹的百度链接变成：bd.dhyto.com/lbd06 chrome每次启动，打开首页：360导航_一个主页，整个世界http://hao360.hjttif.com/dhhj edge每次启动，打开首页：http://p…

支付宝云Serveless+豆包AI实现AI日语学习APP

1. 引言最近学日语，发现动词、形容词的变形规则又多又复杂，在不同语境里变化也不一样，句子结构和语法也很麻烦。为了提高学习效率，决定开发基于AI的日语学习APP，借助 AI 进行辅助学习，目前已经完成单词分析、句子结构分析、跟读功能。2. 技术栈 1. 支付宝云Serve less；…

DeepSeek V3/R1满血版，上线华为云

昇腾云服务已适配DeepSeek系列模型，欢迎广大开发者使用。摘要：昇腾云服务已适配DeepSeek系列模型，欢迎广大开发者使用。 DeepSeek V3/R1 671B旗舰模型（满血版），通常需要高端GPU进行推理，现在基于华为云昇腾云服务的全栈优化适配，可获得持平全球高端GPU部署模型的效果，…