书生.浦语大模型LangChain实战

RAG(Retrieval-Augmented Generation)与Finetune

传统大模型有以下几点问题:

  1. 无法及时更新知识
  2. 知识面广,但在专业领域深度不够

为了解决以上诸多问题,有很多尝试方案。例如通过微调模型(Finetune)来适应专业领域知识,但这种方式对技术要求较高,属于计算密集型,很难灵活使用。

在这里插入图片描述

2020 年Lewis等人,在知识密集型 NLP 任务中,提出了一种更灵活的技术,称为检索增强生成(RAG)[参考论文:https://arxiv.org/abs/2005.11401]。在本文中,研究人员将生成模型与检索器模块相结合,以提供来自外部知识源的附加信息,并且这些信息可以很方便的进行更新维护。

即在大模型外部增加了一个知识库,大模型专门负责知识推理。

参数知识:神经网络只存储在训练期间学习到的知识。

非参数知识:知识存储在外部知识库中,例如向量知识库

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

构建向量数据库

  • 加载源文件:由于知识库文件格式不同,因此需要针对不同类型源文件采用不同的加载器
  • 文档分块(chunk):单个知识文档长度可能会超过模型上下文上限,需要对文档拆分
    • 按字符串长度分割
    • 手动控制分割长度和重叠区间长度
  • 文档向量块
    • 使用任意一种Embedding模型将块转化为向量,存入向量数据库
    • 使用支持语义检索的向量数据库,例如轻量级的Chroma

搭建知识库助手

在这里插入图片描述

创建虚拟环境

在这里插入图片描述

基础模型下载
LangChain相关环境配置

在这里插入图片描述

下载词向量模型sentence Transformer

在这里插入图片描述

下载NLTK库相关资源

知识库搭建

准备知识库数据

克隆几个仓库,利用其中的文本文档作为知识库数据

加载数据

利用langchain将不同格式的文本文档转化为字符串

分块及词向量持久化

利用sentence transformer将分块后的文档转化为词向量,并最终将其持久化保存

InternLM 接入LangChain

自定义一个InternLM的LLM类,继承LangChain的LLM类。重写其__init__()_call_()函数。在init中加载本地LLM模型,在call中调用模型的chat方法,传入prompt,返回response。

构建检索问答链

加载向量数据库
实例化自定义的LLM
实例化Prompt Template

在这里插入图片描述

在这里插入图片描述

reference

一文带你了解RAG(检索增强生成) | 概念理论介绍+ 代码实操(含源码)

Python自然语言处理:NLTK入门指南

向量数据库Chroma极简教程

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/340724.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python OpenCv中调用cv2.selectROI( )函数提取图像中指定区域(高效抠图)

目录 一、cv2.selectROI()函数参数二、代码三、提取结果四、总结 一、cv2.selectROI()函数参数 下面是cv2.seletROI()函数中各个参数的解析: selectROI(windowName, img, showCrosshairNone, fromCenterNone):. 参数windowName:选择的区域被显示在的…

jupyter notebook 配置conda 虚拟环境python

conda创建python环境 conda create -n openvoice python3.9 激活环境 source activate openvoice 在虚拟环境中安装ipykernel pip install ipykernel 添加虚拟环境进到 jupyter notebook python -m ipykernel install --user --name openvoice --display-name openvoice …

【Linux进程】查看进程fork创建进程

目录 前言 1. 查看进程 2. 通过系统调用创建进程-fork初识 总结 前言 你有没有想过在使用Linux操作系统时,后台运行的程序是如何管理的?在Linux中,进程是一个非常重要的概念。本文将介绍如何查看当前运行的进程,并且讨论如何使用…

由于找不到msvcp140.dll无法继续执行代码原因及解决教程分享

在计算机打开软件过程,我们经常会遇到一些错误提示,其中之一就是“由于找不到msvcp140.dll无法继续执行代码”。这个错误通常发生在使用Microsoft Visual C 2015或更高版本编译的程序运行时。那么,什么是msvcp140.dll文件?为什么会…

深入Go语言:高效基准测试与性能分析指南

基准测试 1. 编写 测试代码 基准测试在 Go 中通常是以 Benchmark 开头的函数,接受一个 *testing.B 类型的参数。这个参数提供了控制基准测试运行的方法,比如指定测试运行的次数。 func BenchmarkServer_XX(b *testing.B) {// 准备测试的 Server 实例和…

如何进行大数据系统测试

大数据系统常见的架构形式有如下几种: Hadoop架构: Hadoop Distributed File System (HDFS):这是一种分布式文件系统,设计用于存储海量数据并允许跨多台机器进行高效访问。 MapReduce:作为Hadoop的核心计算框架&#…

如何在Github上快速下载代码

由于网络环境问题,有时候比较难从Github上下载代码,我归纳了以下三种从Github上下载代码的方法,如何选择使用,可根据你的实际情况: 目录 方法一:使用 “Download ZIP” 按钮 方法二:使用 Git…

【浅尝C++】引用

🎈归属专栏:浅尝C 🚗个人主页:Jammingpro 🐟记录一句:大半夜写博客的感觉就是不一样!! 文章前言:本篇文章简要介绍C中的引用,每个介绍的技术点,在…

上架苹果APP的时候在哪里填写APP的隐私政策信息

在如今高度重视数据隐私的时代,开发并上架一个iOS APP时提供透明的隐私政策是非常重要的。苹果公司对此有严格的规定,任何上架至App Store的应用都必须包含一个隐私政策。以下是您在上架苹果APP时填写隐私政策信息的详细步骤和必须注意的事项。 准备隐私…

Centos7升级openssl到openssl1.1.1

Centos7升级openssl到openssl1.1.1 1、先查看openssl版本:openssl version 2、Centos7升级openssl到openssl1.1.1 升级步骤 #1、更新所有现有的软件包列表并安装最新的软件包: $sudo yum update #2、接下来,我们需要从源代码编译和构建OpenS…

平时执行很快的SQL语句,为什么会突然卡一下?

InnoDB在处理更新语句的时候,只做了写日志这一个磁盘操作,这个日志叫作redo log(重做日志),在更新内存写完redo log后,就返回给客户端,本次更新成功。 把内存里的数据写入磁盘的过程&#xff0…

Electron中调用dll

截止目前Electron的官方稳定版本已经更新到了28.1.1。我在创建Electron项目时用的28.0.0版本,后面在项目中有用到调用dll方法的需求,大致的实现就是将后端给的dll文件引入到项目中,安装ffi-napi依赖,然后进行使用。但是在Electron…