揭露GPT幻觉只需一个提示

news/2025/3/4 11:58:51/文章来源:https://www.cnblogs.com/jellyai/p/18745946

把像GPT这样的超大语言模型投入真实世界应用时,最大挑战之一就是经常说的幻觉。这就是说这些模型会开始编造一些根本不对的事实。最麻烦的地方是你可能根本不会发现,因为这些文字放在上下文里听起来很自然。

这对那些需要事实核查,或者某种形式的事后验证才能信任LLM回答的关键任务或商业应用来说尤其难办。减少幻觉的方法有很多——比如所谓的锚定——但这个问题从来没有真正完全消失,而且防止幻觉所需要的工作量可能非常庞大。

在这篇博客里,我们会探讨一种简单的提示技巧,可以在同一个提示里就直接看出可能存在的幻觉,不用非得再追问一句“你确定吗?”之类的。

不过首先,我们看看怎么触发这些幻觉。这里有些主意:

  1. 问一些明显是虚构的实体或事件,这些东西听起来好像有那么回事,但实际上根本不存在

举例:“关于量子物理里的马尔科维安悖论你能告诉我什么?”

  1. 要求提供真实事件/人物的具体细节,而这些细节实际上几乎没人知道

举例:“1921年3月15号爱因斯坦早餐吃了什么?”

  1. 要求引用或者参考一些众所周知的事实

LLM可能会生成看起来很靠谱但其实是假的引用。

  1. 要求一些冷门指标的统计数据

举例:“1923年乌兰巴托的平均降雨量是多少?”

  1. 要求一些真实但非常冷门的专业技术细节

举例:“给我讲讲1937年涂在金门大桥上的油漆具体化学成分。”

  1. 要求一些历史上小人物的传记细节

LLM可能会用听起来像那么回事的东西去填补这些空白,但其实是错的。

——

检测潜在幻觉的简单提示技巧

在这篇博客里,我们会看两个例子:

  1. 分类网站(包括一个虚构的网站)

我们不是让模型判断哪些网站是真的,哪些是假的,而是把问题换个说法,假装所有网站都存在,然后看看LLM能不能自己察觉到问题,让它专注在分类上,而不是去查证事实。

  1. 关于爱因斯坦的一个虚构事实的问题

我们把它包装成好像这个背景是真实的(虽然完全是编的),然后看看LLM怎么回答。

那就开始吧。

——

测试#1:描述一组网站(里面有一个虚构的)

第一次尝试

Make a table with the URL, region, location and purpose of these websites:

mongobo.com,

wikipedia.com,

semrush.com

你可能也猜到了,它编出一个非常靠谱的描述,描述这个网站,好像它真的知道(虽然可能真有这个网站)。

我们做了很多次测试(其他例子也一样),大部分时候模型都坚持说确实有这么个网站(mongobo.com)。

——

第二次尝试

现在我们加上一句魔法词,让它直接在之间随便说点想法,我们不告诉它具体该怎么想(跟那种思维链提示不一样)。

Make a table with the URL, region, location and purpose of these websites and conferences.

mongobo.com, wikipedia.com, semrush.com, mongobo.com.

Share your thoughts in

现在它听起来就没那么确定了,用了“可能是”这样的话,说可能是个商业软件或服务。

虽然比之前好点,但要完全靠自动化手段识别还是很难。

在别的对话里,它会用“可能”或者类似的词:

——

第三次尝试:魔法词“置信度评分”

现在我们直接让LLM告诉我们,它对自己提供的信息有多大把握,也就是说,希望它能暗示我们哪些是它瞎编的,或者说得体点,哪些是“没把握的”。

Make a table with the URL, region, location and purpose and confidence (high/medium/low) of these websites:

mongobo.com,

wikipedia.com,

semrush.com

然后你看,它“承认”了它对那个虚构网站的事实没什么把握,给了个低置信度,而其他真实网站都给了高置信度。

而且,我们这个实验做了几十次,每次它都给那个假的事实打低分或中分,从来没打过高分。

——

所以我们试了两种方法:分享思考过程和给事实加置信度评分。

那其他例子呢?

现在我们看看,能不能用同样的方法去处理一个GPT肯定不知道的事实问题。

What did Einstein eat with bread for breakfast on March 15 ¥, 1921? just answer

then output a fact table with fact and confidence.

不出所料,它编了个爱因斯坦可能吃过的美味早餐,但GPT肯定不知道这个事实。

光看这个事实表,似乎没网站列表那么显眼。

那我们试着把它跟分享想法的技巧合起来:

现在我们请GPT分享想法,然后再输出一个事实表:

What did Einstein have for breakfast on 15 March 1921?

Write your thoughts in .

then output a fact table with all the facts in your answer and a confidence score (high/medium/low) for each. Do not include facts that are not in your answer or that are not requested by the user.

现在它就会显示一个事实表,里面至少有一个低或中置信度的事实。

这里,它把“爱因斯坦具体吃什么没什么文献记录”标成高置信度。

我们测试了几十次,从来没有所有事实全都标高分的情况。

——

那我们再来试个GPT肯定知道答案的问题:爱因斯坦哪天出生的。它确实知道:

果然,事实表里所有事实都标了“高”。

总结

我们把这些技巧放到更多例子里测试过(这里没全部列出来是为了让这篇文章别太长)。虽然永远做不到100%确定,但这些小调整——比如要它给置信度评分,或者加点提示让它分享想法——至少能让LLM在同一个提示里稍微透露一下,它自己觉得它说的这些话靠不靠谱。

这些信息可以用来过滤掉不真实的陈述,或者那些可能把你的应用搞坏、让它出问题的事实,把这些内容标出来,做进一步审核和调查,并尝试用像基于事实锚定这种强力方法来预防它们。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/892169.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何使用ChatGPT画流程图

如何使用ChatGPT画流程图 MermaidMermaid 是一款基于 JavaScript 的图表绘制工具,使用 Markdown 风格的文本定义和渲染器来创建和修改复杂图表。Mermaid 的主要目的是帮助文档跟上开发的步伐。使用示例将ChatGPT回复的代码粘贴到下面的网站上 https://mermaid.live/

成都控制板定制:常见的MAX485芯片型号和后缀的含义

我处承接提供优质的单片机系统开发、电路板PCB设计、控制器研发控制箱定制、电子产品、硬件开发、工控测控传感自动化PLC系统设计、仪器定制仪表订做、信号采集器研发、物联网、软件EXE编程、安卓APP等开发定制加工优质服务(www点yonko-tech点com),在项目时会经常用到485通信…

震撼揭秘:LLM幻觉如何颠覆你的认知!

LLM幻觉 把幻觉理解为训练流水线中的一种涌现认知效应 Prashal RuchirangaRobina Weermeijer 在 Unsplash 上的照片介绍 在一个名为《深入剖析像ChatGPT这样的LLM》的YouTube视频里,特斯拉前AI资深总监Andrej Karpathy探讨了大型语言模型(LLM)的心理现象,把它看作是训练流水…

Windows 10 Hyper-V 安装不了 统信UOS Server 解决方案

如果一直停留在上面的页面,删除虚拟机,记得创建虚拟机,不要选择2代CPU。

Windows下DeepSeek R1简单搭建

目录安装 Ollama简介安装运行模型选择嵌入模型(Embedding)安装和使用Cherry Studio配置Cherry Studio配置使用本地模型知识库配置 安装 Ollama 简介 Ollama 是一个开源的大型语言模型(LLM)平台,旨在让用户能够轻松地在本地运行、管理和与大型语言模型进行交互。 提供了一个简…

学习进度记录贴

本文主要记录作者的各个学习记录🐫学习进度记录帖本贴开立初衷是为了督促作者好好学习,用记录的方式收获一点正反馈。作者目前大三下半学期,由于对考研上不了岸z的担忧,所以想边实习边考研。虽然这是很多人都不建议走的一条路,但是只有这样才能够缓解我的焦虑,让我不必在…

SSL/TLS握手阶段解析

众所周知SSL/TLS是HTTPS的基石,我觉得对经常都在使用的网络需要有进一步的了解。 HTTPS协议全称(Hypertext Transfer Protocol Secure),它与HTTP协议最大的不同就在于更安全。 HTTP是明文协议,所有内容默认都没有经过加密,当然也可以由开发人员将客户端和服务端要发送的内…

CICD+K8s项目实战讲解

CICD 流水先实战,使用git+Jenkins(git+mvn+docker)+ harbor + k8s 1.环境说明

我的公众号接入了DeepSeek-R1模型,成为了一个会深度思考的强大.NET AI智能体!

前言 前不久腾讯元器宣布接入满血版 Deepseek R1 模型,模型免费使用且不限量,为智能体开发提供更多样化的模型选择,带来更丰富的智能体功能和玩法。 今天咱们一起来把我公众号的.NET AI智能体模型从腾讯混元大模型-turbo(32k)切换为DeepSeek-R1(32k),使其拥有深度思考功能变…

图周围添加阴影更逼真 filter:drop-shadow(0 2px 14.7px rgba(0, 0, 0, .08));

filter:drop-shadow(0 2px 14.7px rgba(0, 0, 0, .08));在CSS中,filter 属性可以用来应用图形效果,如模糊、阴影、颜色变换等。drop-shadow 则是 filter 属性中的一种效果,用于给元素添加阴影效果。 语法filter: drop-shadow(offset-x offset-y blur-radius color);offset-x…

趋势还是噪声?ADF与KPSS检验结果矛盾时的高级时间序列处理方法

在时间序列分析领域,评估数据的平稳性是构建准确模型的基础。ADF(Augmented Dickey-Fuller,增广迪基-富勒检验)和KPSS(Kwiatkowski-Phillips-Schmidt-Shin)检验是用于评估时间序列数据平稳性的两种关键统计假设检验方法。当我们遇到ADF检验失败而KPSS检验通过的情况时,这…

读当我点击时,算法在想什么?08读后总结与感想兼导读

读当我点击时,算法在想什么?08读后总结与感想兼导读1. 基本信息 当我点击时,算法在想什么?(瑞典)大卫萨普特(David Sumpter) 著中国科学技术出版社,2025年01月出版1.1. 读薄率 书籍总字数15.9万字,笔记总字数20598字。 读薄率20598159000≈12.95% 1.2. 读厚方向算法霸权极…