Zero-Shot，One-Shot，Few-Shot，In-Context Learning

news/2025/2/24 10:20:30/文章来源:https://www.cnblogs.com/lightsong/p/18415990

Zero-Shot，One-Shot，Few-Shot，In-Context Learning

https://blog.csdn.net/weixin_44212848/article/details/139902394

In-Context Learning

定义：In-context learning是一种在不显式微调模型权重的情况下，通过给模型提供相关的上下文信息（例如提示或样本）来实现模型性能提升的方法。GPT-3等大规模语言模型展示了这种能力。

在 LLM 的语境下：
“上下文学习”（In-context learning）使用预先训练的语言模型的文本输入作为任务规范的一种形式：该模型以自然语言指令和/或任务的一些演示为条件，然后期望通过预测接下来会发生什么来完成任务的进一步实例 4。

下图是 in-context learning （左边一列）和一般 fine-tuning （右边一列）的区别，in-context learning 不产生梯度、不会更新模型参数，而 fine-tuning 会产生梯度、更新模型参数。

需要注意区分 in-context learning 中可以有 Zero-Shot、One-Shot 和 Few-Shot 的 Setting，但和 Zero-Shot learning、One-Shot learning、Few-Shot learning 不一样！

在这里插入图片描述

Few-shot Fine-tuning vs. In-context Learning:A Fair Comparison and Evaluation

https://arxiv.org/pdf/2305.16938

什么是上下文学习（In-Context Learning）

https://zhuanlan.zhihu.com/p/606788655

GPT-n 系列的模型都属于自回归类的语言模型，所谓自回归模型

就是根据当前输入预测下一个词，然后将预测结果和输入拼接再当做模型的输入再预测下一个词，这样循环往复。

而自回归模型的训练目标也很简单，就是从超大规模语料库

中采样训练样本，模型根据输入输出一个概率向量（概率向量包含所有词的预测概率，对于GPT-3 模型来说，维度约1千多万），而因为文本数据自带标注所以我们是知道真实的下一个词，所以损失函数就采用得交叉熵

。

然后研究人员发现，预训练好的 GPT-3 模型拥有一项神奇的能力，后来被称为：上下文学习（In-Context Learning）。

这项能力简单来说就是，预训练好的 GPT-3 模型在迁移到新任务上的时候并不需要重新训练，而只需要提供任务描述（这个任务描述是可选项）接着提供几个示例（任务查询和对应答案，以一对对

的形式组织），最后加上要模型回答的查询。将以上内容打包一起作为模型的输入，则模型就能正确输出最后一个查询对应的答案。

举个例子：

比如现在想用 GPT-3 来做个翻译任务，翻译英文为法文。输入的格式如下：

https://ai.stanford.edu/blog/in-context-learning/

首先第一行是对任务描述，告诉模型要做翻译，接下来三行就是示例，英文单词和对应的法文单词对，最后一行就是待翻译的英文单词。将以上内容整体作为 GPT-3 的输入，让模型去补全输出就能得到 cheese 对应的法文单词。

上下文学习非常的灵活，除了上面展示的翻译任务，还可以做语法修饰甚至写代码。而神奇的地方就在于，在 GPT-3 的训练过程中是并没有显式的提供，类似测试阶段任务描述加示例这样的训练数据。

当然 GPT-3 的训练数据量非常巨大（比如包含了 wiki, 书本期刊，reddit 上的讨论等等），或许里面就已经就包含了各种任务类似结构的数据，GPT-3 模型容量足够大能够将所有训练数据都记了下来。

对于上下文学习能力的成因，目前还是一个开放性的问题。为什么只有大规模的语言模型才会具备该能力？或许只有模型参数量大还不够，还必须要训练数据量也足够大，模型才能显现出该能力？

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/797973.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

书上说，射线法和叉乘法感觉都不完整下面我分享我写的基于AutoCAD BREP算法var ed = acApp.Application.DocumentManager.MdiActiveDocument.Editor;var peo = new PromptEntityOptions("Select a PolyLine : ");peo.SetRejectMessage("Only PolyLine");…

Nginx使用篇：实现负载均衡、限流与动静分离

Nginx实用篇：实现负载均衡、限流与动静分离| 原创作者/编辑：凯哥Java | 分类：Nginx学习系列教程nginx的logo Nginx 作为一款高性能的 HTTP 服务器及反向代理解决方案，在互联网架构中扮演着至关重要的角色。它不仅支持负载均衡、流量控制等功能…

[ACTF2020 新生赛]Upload

启动靶机，发现有前端验证先绕过前端验证，在burp中尝试发现验证在文件名后缀，且会重命名文件名发现.ini能上传但是会被重命名，既然不像前端显示只有三种格式能上传，这里我们寻找能绕过的后缀尝试发现phtml能上传成功 //PHTML 扩展名是 PHP 的一个模块，它允许在 HTML 文件…

上海登陆最强台风台风路径追踪 All In One

上海登陆最强台风 & 台风路径追踪 All In One 上海最强台风路径追踪中央气象台、市气象服务中心介绍，今年第13号台风“贝碧嘉”（强台风级）的中心已于今天（2024年09月16日）7点30分前后在上海浦东临港新城登陆，登陆时中心附近最大风力14级（42米/秒），中心最低气压为…

再vue中使用Vuetify 创建app项目

vue：2 Vuetify ：2与vue创建普通项目相同：https://www.cnblogs.com/yansans/p/18342267vscode打开项目，在项目终端中运行vue add vuetify@2之后会出现，选择默认即可（回车）几个选项的解释： 1. Vuetify 2 - Configure Vue CLI (advanced)解释：这是一个高级选项，允许你对…

广东产业转移工业园

南沙C++信奥老师解一本通题 1228：书架

【题目描述】John最近买了一个书架用来存放奶牛养殖书籍，但书架很快被存满了，只剩最顶层有空余。 John共有NN头奶牛(1≤N≤20,000)，每头奶牛有自己的高度Hi(1≤Hi≤10,000)，N头奶牛的总高度为S。书架高度为B(1≤B≤S<2,000,000,007)。为了到达书架顶层，奶牛可以踩着…

基于Java+Springboot+Vue开发的医院门诊预约挂号系统

项目简介该项目是基于Java+Springboot+Vue开发的医院门诊预约挂号系统（前后端分离），这是一项为大学生课程设计作业而开发的项目。该系统旨在帮助大学生学习并掌握Java编程技能，同时锻炼他们的项目设计与开发能力。通过学习基于Java的门诊预约挂号管理系统项目，大学生可以在…

基于Java+Springboot+Vue开发的家具管理系统

项目简介该项目是基于Java+Springboot+Vue开发的家具管理系统（前后端分离），这是一项为大学生课程设计作业而开发的项目。该系统旨在帮助大学生学习并掌握Java编程技能，同时锻炼他们的项目设计与开发能力。通过学习基于Java的家具管理系统项目，大学生可以在实践中学习和提升…

VirtualBox 7.1.0 发布下载 - 开源跨平台虚拟化软件

VirtualBox 7.1.0 发布下载 - 开源跨平台虚拟化软件VirtualBox 7.1.0 发布下载 - 开源跨平台虚拟化软件 VirtualBox 7.1.0 (macOS, Linux, Windows) - 开源跨平台虚拟化软件 Oracle VM VirtualBox 7 请访问原文链接：https://sysin.org/blog/virtualbox-7/，查看最新版。原创作…

Kali Linux 2024.3 发布下载 - 领先的渗透测试发行版

Kali Linux 2024.3 发布下载 - 领先的渗透测试发行版Kali Linux 2024.3 发布 (Multiple transitions) - 领先的渗透测试发行版 The most advanced Penetration Testing Distribution 请访问原文链接：https://sysin.org/blog/kali-linux/，查看最新版。原创作品，转载请保留出处…