书生.浦语大模型LangChain实战-编程知识

书生.浦语大模型LangChain实战

news/2025/3/12 19:56:45/文章来源:https://blog.csdn.net/L1142456160/article/details/135532829

RAG（Retrieval-Augmented Generation）与Finetune

传统大模型有以下几点问题：

无法及时更新知识
知识面广，但在专业领域深度不够

为了解决以上诸多问题，有很多尝试方案。例如通过微调模型（Finetune）来适应专业领域知识，但这种方式对技术要求较高，属于计算密集型，很难灵活使用。

在这里插入图片描述

2020 年Lewis等人，在知识密集型 NLP 任务中，提出了一种更灵活的技术，称为检索增强生成（RAG）[参考论文：https://arxiv.org/abs/2005.11401]。在本文中，研究人员将生成模型与检索器模块相结合，以提供来自外部知识源的附加信息，并且这些信息可以很方便的进行更新维护。

即在大模型外部增加了一个知识库，大模型专门负责知识推理。

参数知识：神经网络只存储在训练期间学习到的知识。

非参数知识：知识存储在外部知识库中，例如向量知识库

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

构建向量数据库

加载源文件：由于知识库文件格式不同，因此需要针对不同类型源文件采用不同的加载器
文档分块（chunk）：单个知识文档长度可能会超过模型上下文上限，需要对文档拆分
- 按字符串长度分割
- 手动控制分割长度和重叠区间长度
文档向量块
- 使用任意一种Embedding模型将块转化为向量，存入向量数据库
- 使用支持语义检索的向量数据库，例如轻量级的Chroma

搭建知识库助手

在这里插入图片描述

创建虚拟环境

在这里插入图片描述

基础模型下载

LangChain相关环境配置

在这里插入图片描述

下载词向量模型sentence Transformer

在这里插入图片描述

下载NLTK库相关资源

知识库搭建

准备知识库数据

克隆几个仓库，利用其中的文本文档作为知识库数据

加载数据

利用langchain将不同格式的文本文档转化为字符串

分块及词向量持久化

利用sentence transformer将分块后的文档转化为词向量，并最终将其持久化保存

InternLM 接入LangChain

自定义一个InternLM的LLM类，继承LangChain的LLM类。重写其__init__()和_call_()函数。在init中加载本地LLM模型，在call中调用模型的chat方法，传入prompt，返回response。

构建检索问答链

加载向量数据库

实例化自定义的LLM

实例化Prompt Template

在这里插入图片描述

在这里插入图片描述

reference

一文带你了解RAG(检索增强生成) | 概念理论介绍+ 代码实操（含源码）

Python自然语言处理：NLTK入门指南

向量数据库Chroma极简教程

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/340724.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Python OpenCv中调用cv2.selectROI( )函数提取图像中指定区域（高效抠图）

Python OpenCv中调用cv2.selectROI( )函数提取图像中指定区域（高效抠图）

目录一、cv2.selectROI()函数参数二、代码三、提取结果四、总结一、cv2.selectROI()函数参数下面是cv2.seletROI()函数中各个参数的解析： selectROI(windowName, img, showCrosshairNone, fromCenterNone):. 参数windowName：选择的区域被显示在的…

阅读更多...

jupyter notebook 配置conda 虚拟环境python

conda创建python环境 conda create -n openvoice python3.9 激活环境 source activate openvoice 在虚拟环境中安装ipykernel pip install ipykernel 添加虚拟环境进到 jupyter notebook python -m ipykernel install --user --name openvoice --display-name openvoice …

阅读更多...

【Linux进程】查看进程fork创建进程

【Linux进程】查看进程fork创建进程

目录前言 1. 查看进程 2. 通过系统调用创建进程-fork初识总结前言你有没有想过在使用Linux操作系统时，后台运行的程序是如何管理的？在Linux中，进程是一个非常重要的概念。本文将介绍如何查看当前运行的进程，并且讨论如何使用…

阅读更多...

由于找不到msvcp140.dll无法继续执行代码原因及解决教程分享

由于找不到msvcp140.dll无法继续执行代码原因及解决教程分享

在计算机打开软件过程，我们经常会遇到一些错误提示，其中之一就是“由于找不到msvcp140.dll无法继续执行代码”。这个错误通常发生在使用Microsoft Visual C 2015或更高版本编译的程序运行时。那么，什么是msvcp140.dll文件？为什么会…

阅读更多...

深入Go语言：高效基准测试与性能分析指南

深入Go语言：高效基准测试与性能分析指南

基准测试 1. 编写测试代码基准测试在 Go 中通常是以 Benchmark 开头的函数，接受一个 *testing.B 类型的参数。这个参数提供了控制基准测试运行的方法，比如指定测试运行的次数。 func BenchmarkServer_XX(b *testing.B) {// 准备测试的 Server 实例和…

阅读更多...

如何进行大数据系统测试

如何进行大数据系统测试

大数据系统常见的架构形式有如下几种： Hadoop架构： Hadoop Distributed File System (HDFS)：这是一种分布式文件系统，设计用于存储海量数据并允许跨多台机器进行高效访问。 MapReduce：作为Hadoop的核心计算框架&#…

阅读更多...

如何在Github上快速下载代码

如何在Github上快速下载代码

由于网络环境问题，有时候比较难从Github上下载代码，我归纳了以下三种从Github上下载代码的方法，如何选择使用，可根据你的实际情况： 目录方法一：使用 “Download ZIP” 按钮方法二：使用 Git…

阅读更多...

【浅尝C++】引用

【浅尝C++】引用

🎈归属专栏：浅尝C 🚗个人主页：Jammingpro 🐟记录一句：大半夜写博客的感觉就是不一样！！ 文章前言：本篇文章简要介绍C中的引用，每个介绍的技术点，在…

阅读更多...

上架苹果APP的时候在哪里填写APP的隐私政策信息

上架苹果APP的时候在哪里填写APP的隐私政策信息

在如今高度重视数据隐私的时代，开发并上架一个iOS APP时提供透明的隐私政策是非常重要的。苹果公司对此有严格的规定，任何上架至App Store的应用都必须包含一个隐私政策。以下是您在上架苹果APP时填写隐私政策信息的详细步骤和必须注意的事项。准备隐私…

阅读更多...

Centos7升级openssl到openssl1.1.1

Centos7升级openssl到openssl1.1.1

Centos7升级openssl到openssl1.1.1 1、先查看openssl版本：openssl version 2、Centos7升级openssl到openssl1.1.1 升级步骤 #1、更新所有现有的软件包列表并安装最新的软件包： $sudo yum update #2、接下来，我们需要从源代码编译和构建OpenS…

阅读更多...

平时执行很快的SQL语句，为什么会突然卡一下？

平时执行很快的SQL语句，为什么会突然卡一下？

InnoDB在处理更新语句的时候，只做了写日志这一个磁盘操作，这个日志叫作redo log（重做日志），在更新内存写完redo log后，就返回给客户端，本次更新成功。把内存里的数据写入磁盘的过程&#xff0…

阅读更多...

Electron中调用dll

Electron中调用dll

截止目前Electron的官方稳定版本已经更新到了28.1.1。我在创建Electron项目时用的28.0.0版本，后面在项目中有用到调用dll方法的需求，大致的实现就是将后端给的dll文件引入到项目中，安装ffi-napi依赖，然后进行使用。但是在Electron…

阅读更多...

推荐文章

最新文章