NLP_“预训练+微调大模型”模式和Prompt/Instruct模式的异同

文章目录

  • “预训练+微调大模型”的模式
  • 以提示/指令模式直接使用大模型
  • “预训练+微调大模型”模式和Prompt/Instruct模式的异同
  • 小结


“预训练+微调大模型”的模式

经过预训练的大模型所习得的语义信息和所蕴含的语言知识,很容易向下游任务迁移。NLP应用人员可以根据自己的需要,对模型的头部或者部分参数进行适应性的调整,这通常涉及在相对较小的有标注数据集上进行有监督学习,让模型适应特定任务的需求。这就是对预训练模型的微调(Fine-tuning,有时也译为精调)。微调过程相对于从头训练一个模型要快得多,且需要的数据量也要少得多,这使得NLP 应用人员能够更高效地开发和部署各种NLP解决方案。
在这里插入图片描述
这种“预训练+微调大模型”的模式优势明显。首先,预训练模型能够将大量的通用语言知识迁移到各种下游任务上,作为应用人员,我们不需要自己寻找语料库,从头开始训练大模型,这减少了训练时间和数据需求。

以提示/指令模式直接使用大模型

近年来,随着GPT这种生成式大型预训练模型的突飞猛进,“预训练+微调大模型”的使用模式有被一种称为“提示”( Prompt)或者说“指令”(Instruct)的使用模式所取代的趋势。

Prompt模式和Instruct模式都基于这样一种思想:在训练阶段,这些模型通过学习大量的文本数据,掌握了语言的结构、语法和一定程度的语义知识。那么,在应用阶段,通过在输入中提供恰当的信息和指导,可以引导大型预训练模型(如GPT-3)生成相关性更强且更有用的输出。这种方法可以看作与模型进行一种“对话”,用户提供输入(Prompt或Instruct),然后模型根据输入生成相应的输出。

在这里插入图片描述
大模型本身就是知识库,里面蕴含了你所需要的信息,不一定非得微调才能解决问题,但是你得知道怎么才能把它里面的知识“调”出来。

Prompt和Instruct这两种模式的不同之处
在这里插入图片描述
Prompt和Instruct模式

  • Prompt 模式:输入通常是一个词或短语,模型需要根据这个提示生成自然且连贯的文本。这种方式适用于生成式任务,如文本生成、文章摘要等。
  • Instruct 模式:输入是一条明确的指令,要求模型完成特定任务。这种方式适用于那些需要明确指示的任务,如回答问题、解释概念等。

“预训练+微调大模型”模式和Prompt/Instruct模式的异同

在这里插入图片描述

小结

  • 预训练+微调大模型”模式通过在特定任务上对模型进行微调,使模型更加精确地适应任务需求;
  • Prompt/Instruct模式则直接利用预训练模型的生成能力,通过设计合适的提示来解决问题。

选择哪种模型取决于具体的任务需求、可用数据,以及具体的任务对精确性和灵活性的需求。


学习的参考资料:
(1)书籍
利用Python进行数据分析
西瓜书
百面机器学习
机器学习实战
阿里云天池大赛赛题解析(机器学习篇)
白话机器学习中的数学
零基础学机器学习
图解机器学习算法

动手学深度学习(pytorch)

(2)机构
光环大数据
开课吧
极客时间
七月在线
深度之眼
贪心学院
拉勾教育
博学谷
慕课网
海贼宝藏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/460057.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JavaScript基础第四天

JavaScript 基础第四天 今天我们学习js的函数,包括普通函数、匿名函数、箭头函数以及函数作用域。 1. 函数的初体验 1.1. 什么是函数 函数是 JavaScript 中的基本组件之一。一个函数是 JavaScript 过程一组执行任务或计算值的语句。要使用一个函数,你…

qnx log写入文件 简单实现

qnx log写入文件 简单实现 #ifndef __COMMON_LOG__ #define __COMMON_LOG__#include "fcntl.h" #include "pthread.h" #include "stdarg.h" #include "unistd.h" #include <stdio.h> #include <string.h>//#define _LOG_…

Golang 基础 Go Modules包管理

Golang 基础 Go Modules包管理 在 Go 项目开发中&#xff0c;依赖包管理是一个非常重要的内容&#xff0c;依赖包处理不好&#xff0c;就会导致编译失败&#xff0c;本文将系统介绍下 Go 的依赖包管理工具。 我会首先介绍下 Go 依赖包管理工具的历史&#xff0c;并详细介绍下…

使用SM4国密加密算法对Spring Boot项目数据库连接信息以及yaml文件配置属性进行加密配置(读取时自动解密)

一、前言 在业务系统开发过程中,我们必不可少的会使用数据库,在应用开发过程中,数据库连接信息往往都是以明文的方式配置到yaml配置文件中的,这样有密码泄露的风险,那么有没有什么方式可以避免呢?方案当然是有的,就是对数据库密码配置的时候进行加密,然后读取的时候再…

JUnit实践教程——Java的单元测试框架

前言 大家好&#xff0c;我是chowley&#xff0c;最近在学单元测试框架——JUnit&#xff0c;写个博客记录一下&#xff01; 在软件开发中&#xff0c;单元测试是确保代码质量和稳定性的重要手段之一。JUnit作为Java领域最流行的单元测试框架&#xff0c;为开发人员提供了简单…

使用 WMI 查询安全软件信息

在这篇文章中&#xff0c;我们将详细介绍如何使用 Windows Management Instrumentation (WMI) API 来查询当前计算机上安装的安全软件的基本信息。我们将分析代码的各个部分&#xff0c;并解释每个步骤所涉及的技术和原理。 一、什么是 WMI&#xff1f; WMI 是 Windows Manag…

电力负荷预测 | 基于GRU门控循环单元的深度学习电力负荷预测,含预测未来(Python)

文章目录 效果一览文章概述源码设计参考资料效果一览 文章概述 电力负荷预测 | 基于GRU门控循环单元的深度学习电力负荷预测,含预测未来(Python&

STM32DMA

文章目录 前言一、介绍部分DMA简介存储器映像DMA框图仲裁器 DMA基本结构请求映像数据对齐方式数据转运ADC扫描模式配合DMA 二、代码部分DMA数据转运连接电路代码实现ADC扫描DMA实现思路连接电路代码实现 总结函数相关 前言 介绍STM32DMA的原理以及功能&#xff0c;使用DMA配合…

目标检测 | 卷积神经网络(CNN)详细介绍及其原理详解

前言&#xff1a;Hello大家好&#xff0c;我是小哥谈。卷积神经网络&#xff08;Convolutional Neural Network&#xff0c;CNN&#xff09;是一种深度学习模型&#xff0c;主要用于图像识别和计算机视觉任务。它的设计灵感来自于生物学中视觉皮层的工作原理。CNN的核心思想是通…

车载自动化项目:Python

1. 自动化测试用的什么框架&#xff1f; 第一种&#xff1a;PythonSeleniumuittest框架 首先是拿到需求文档&#xff0c;基于这个需求去进行搭建。 用pytestrequestallure 这些第三方库进行编写自动化脚本。 举个例子一般的话整个的一个自动化的搭建是分为6层嘛&#xff1a…

redis集群配置

redis集群配置.pdf 跳转/opt/redis → cd /opt/redis 1、下载redis wget http://download.redis.io/releases/redis-6.2.1.tar.gz 2、解压 tar -xzvf redis-6.2.1.tar.gz 3、编译 cd /opt/redis/redis-6.2.1 make MALLOClibc 4、安装 make PREFIX/opt/redis/ install ⽣成…

Talk|香港中文大学(深圳)张雪遥:音频生成开源工具包Amphion的歌声转换指南

本期为TechBeat人工智能社区第570期线上Talk。 北京时间2月7日(周三)20:00&#xff0c;香港中文大学(深圳)博士生—张雪遥的Talk已准时在TechBeat人工智能社区开播&#xff01; 他与大家分享的主题是: “音频生成开源工具包Amphion的歌声转换指南”&#xff0c;系统地介绍他的团…