文献阅读：Large Language Models are Null-Shot Learners-编程知识

这篇文章是立命馆大学在今年1月发表的一篇工作，依然是一个prompt tuning的一个工作，不过蛮有意思的。

这篇文章提出的一个核心方法叫做 $\varnothing$ shot prompt，简单来说就是假装告诉模型给了一些example，然后实际不给，然后让模型进行生成，在这种情况下，发现模型获得了较之普通情况下更好的效果表达，也是挺神奇的。

本质上来说，这篇文章就是注意到了当前LLM无法绕开的幻觉问题，然后反其道而用之，利用模型自身的“幻觉”来辅助生成，获得更好的生成效果。

在这里插入图片描述

下面，我们来具体对文章内容进行一下展开。

首先，我们来看一下 $\varnothing$ shot prompt的具体方法实现。

这部分其实真的很签单，前面说的基本就是全部了，即提示模型prompt中包含一些实际并不存在的example，然后让模型根据这些不存在的example来生成对应的结果。

文中给出了一个具体的实现的示例如下：

在这里插入图片描述

然后，我们来看一下文中给出的一些关于 $\varnothing$ shot prompt的具体实验。

首先，我们来看一下文中关于 $\varnothing$ shot prompt的一些基础实验。

其实主要也就是在不同的模型上使用 $\varnothing$ shot prompt在不同的数据集下进行一下考察。

因此，我们先看一下文中使用了哪些模型以及数据集，然后看一下得到的实验结果以及对应可以得到的结论。

我们首先来看一下文献中使用的任务，对应的数据集以及使用的模型：

而模型方面，则是主要使用以下几个模型：

文中得到的实验结果如下：

在这里插入图片描述

可以看到：

$\varnothing$ shot prompt在PaLM2的两个模型上可以普遍地提升模型效果，几乎在所有任务上均有提升效果；
$\varnothing$ shot prompt在PaLM2模型上的效果是明显优于Chat模型的，原因可能由于Chat模型在SFT当中进行了对齐，消除了更多的幻觉；
而在GPT3.5 Turbo模型当中， $\varnothing$ shot prompt带来了最大的效果提升；
在GPT4 Turbo模型当中， $\varnothing$ shot prompt基本没有效果。

对于上述现象，文中给出的一个基础解释就是：

$\varnothing$ shot prompt本质上是利用的模型自身的幻觉来进行辅助生成，因此，模型训练的越好，幻觉越弱， $\varnothing$ shot prompt能够带来的效果增益就越弱，反之，模型越容易生成幻觉， $\varnothing$ shot prompt能够带来的效果增益就越大。

基于此，文中甚至提出可以使用这个现象来通过 $\varnothing$ shot prompt对模型本身的幻觉程度进行一个评估。

除了上述基础实验当中的实验效果之外，文中还给出了一些消融实验来对 $\varnothing$ shot prompt进行更细节的考察，具体来说，包括：

下面，我们来对这些内容逐一进行一下整理。

首先，关于 $\varnothing$ shot prompt在小模型上的有效性，文中在LLama 2 7B模型上进行了一下考察，得到结果如下：

在这里插入图片描述

可以看到：

$\varnothing$ shot prompt在LLama 2 7B上有较好的效果表达，但是在LLama 2 7B Chat上面的效果并不好，这不仅证明了 $\varnothing$ shot prompt在小模型上的有效性，且同样复现了前述 $\varnothing$ shot prompt在Chat模型上效果更差的现象，说明对齐消除幻觉确实会减弱 $\varnothing$ shot prompt的效果。