实操Deepseek接入个人知识库-编程知识

实操Deepseek接入个人知识库

news/2025/2/24 19:10:25/文章来源:https://www.cnblogs.com/77cxw/p/18734676

要将Deepseek接入个人知识库，通常涉及知识库数据处理、模型集成、检索增强生成（RAG）等技术。以下是分步骤的实操指南：

一、准备工作

环境配置

pip install langchain deepseek-api chromadb unstructured python-dotenv

获取Deepseek API密钥
- 访问Deepseek官网注册账号，创建API Key（假设提供类似OpenAI的API服务）。

二、构建个人知识库

数据收集与清洗
- 将个人文档（PDF/TXT/Word/Markdown）统一转换为纯文本。
- 示例法律代码（PDF处理）：
  python
  
  复制
```
from langchain.document_loaders import PyPDFLoader
loader = PyPDFLoader("your_doc.pdf")
pages = loader.load()
```

文本分块与向量化

from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import HuggingFaceEmbeddingstext_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
chunks = text_splitter.split_documents(pages)embeddings = HuggingFaceEmbeddings(model_name="BAAI/bge-small-zh-v1.5")

存储到向量数据库

from langchain.vectorstores import Chromavector_db = Chroma.from_documents(documents=chunks,embedding=embeddings,persist_directory="./chroma_db"
)
vector_db.persist()

三、集成Deepseek模型

设置Deepseek接口

from langchain.llms import Deepseek
import osos.environ["DEEPSEEK_API_KEY"] = "your-api-key"
llm = Deepseek(model="deepseek-chat")

构建RAG流水线

from langchain.chains import RetrievalQAqa_chain = RetrievalQA.from_chain_type(llm=llm,chain_type="stuff",retriever=vector_db.as_retriever(search_kwargs={"k": 3}),return_source_documents=True
)

四、测试与优化

发起查询

query = "我的知识库中关于XX项目的主要结论是什么？"
result = qa_chain({"query": query})
print(result["result"])

优化策略
- 调整分块大小：根据答案质量尝试不同chunk_size（如300-1000）。
- 优化检索：使用search_type="mmr"提升多样性。https://www.hefeilaws.com/
- 提示工程：定制系统提示强调基于知识库回答：
  python
  
  复制
```
prompt_template = """基于以下上下文回答：
{context}
问题：{question}
"""
```

五、高级扩展

实时更新知识库

def update_knowledge(new_file):loader = PyPDFLoader(new_file)new_pages = loader.load()new_chunks = text_splitter.split_documents(new_pages)vector_db.add_documents(new_chunks)

部署为API

from fastapi import FastAPI
app = FastAPI()@app.post("/ask")
async def ask(query: str):return qa_chain({"query": query})

常见问题排查

答案与知识库不符
- 检查向量数据库检索结果：print(result["source_documents"])
- 确认文档解析未出错
处理长文档速度慢
- 使用更轻量级的嵌入模型（如paraphrase-multilingual-MiniLM-L12-v2）
- 启用GPU加速（如果可用）

通过以上步骤，您即可实现Deepseek与个人知识库的深度集成，使模型能够基于定制数据提供精准回答。实际部署时需注意数据隐私和API调用成本控制。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/889137.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

开学测验——仓库管理系统

以下是项目结构：登录界面：输入不同用户名进入不同角色的主页面管理员：仓库工作人员：

【窃贼】- 2025.2.24

下图为《Balatro》中的一张小丑牌：【窃贼】窃贼是小丑牌中一张独一无二的小丑，其效果为 \(+3\) 出牌次数并失去所有弃牌次数。其能力相当强大，因为 \(+3\) 出牌次数涵盖了非常多的方面。首先 \(+3\) 出牌次数显然可以拉高分数，提升幅度在绝大多数情况下至少带来 \(\times 1…

2025-2 好题

2025-2 好题目录2025-2 好题UOJ Round 29 B - 数字生命P10063 [SNOI2024] 平方数AGC070C - No StreakAGC070B - Odd Namoriリテラチュアブルーアーカイブ UOJ Round 29 B - 数字生命首先想到差分，差分后是正的就看成一些起点，负的就看成是一些终点然后题目就相当于要对每一…

智算超凡| 触想携手DeepSeek，探索工业+AI应用新模式！

近年来，AI赋能工业场景的应用趋势越发明显，尤其DeepSeek大模型凭借强大的多场景理解与生成能力横空出世，瞬间点燃了“工业+AI”应用的无限遐想。一、DeepSeek火出圈，工业AI加速部署以此为契机，触想于日前启动了DeepSeek大模型在其工业一体机、工控机等产品上的多轮对接与本…

2.24作业

【攻防世界】hit_the_core

core文件如果bin文件内容过多，可以用linux的strings命令辅助分析

【攻防世界】神奇的Modbus

ModBus是工业领域常用的设备之间通信的协议在modbus数据包中追踪字节流即可得到flag

kettle调度管理系统XXK-PDI，kettle调度好帮手

最近两天感冒了，而且莫名其妙的嗓子哑了好几天，心情很是不爽。周末两天啥也不想干，坐在电脑旁边继续手撕kettle调度系统。 1、其实之前有整理过kettle的调度方法，有很多种，根据自己的需求合理选择其中的一种，如下图所示：2、kettlePack 应该是深度集成kettle，将kettle的…

记录---Vue的scoped原理是什么？

🧑‍💻 写在开头点赞 + 收藏 === 学会🤣🤣🤣前言还记得几年前我去找前端工作的时候，那时候才初入职场，有一次去面试，然后被面试官问过一个面试题，Vue中Scoped的原理是什么？幸好当时八股文面试题背的很多，我当时就说是在选择器加了一个唯一的属性实现的，那时候…

用链表实现队列

问题：链表和数组，哪个队列更快？分析：队列是先进后出数组是连续存储的，push很快，shift 很慢　　链表是非连续存储，add 和 delete 都很快结论：链表实现队列更快链表实现队列单向链表，要同时记录 head 和 tail 要从tail 入队，从head 出队 length要实时记录，不可遍历…

PLC及CNC数控机床设备运行状态工艺参数节拍产量采集焊接设备

序号车间产线设备名称设备数量控制器控制器型号通讯接口设备采集参数增加转类型换模块1 焊洗焊洗4线压簧支柱焊接设备 1 PLC 三菱FX1N 串口设备运行状态；节拍；产量是2 焊洗焊洗4线机脚焊接设备 1 PLC 三菱FX3U 串口设备运行状态；节拍；产量是3 焊…

Unity UI框架总结

前言目前国内手游的开发过程中，大部分业务玩法都是围绕着UI进行的。一个玩法业务不管是大型还是小型，UI上能占用40%-60%的工作量，不过当然也与玩法类型也有关系，玩法越偏3D，UI占有率越低，玩法越偏2D，UI占有率就越高，甚至能达到100%。博主作为一个3年多工作经验的U3D小…