【论文速读】| 大语言模型平台安全:将系统评估框架应用于OpenAI的ChatGPT插件

图片

本次分享论文为:LLM Platform Security: Applying a Systematic Evaluation Framework to OpenAI’s ChatGPT Plugins

基本信息

原文作者:Umar Iqbal, Tadayoshi Kohno, Franziska Roesner

作者单位:华盛顿大学圣路易斯分校,华盛顿大学

关键词:大语言模型,插件生态系统,安全性,隐私,安全框架

原文链接:

https://arxiv.org/pdf/2309.10254.pdf

开源代码:暂无

论文要点

论文简介:在这项研究中,研究者提出了一个框架,目的是为大语言模型(LLM)平台的设计者们提供一个基准,用于评估并增强这些平台及其集成插件在安全性、隐私性和可靠性方面的表现,既适用于当前环境也适应于未来发展。该框架建立在一套攻击分类学上,这套分类学基于迭代的方式探讨了LLM平台的各个利益相关方如何能够利用自身的能力和责任进行相互攻击。研究过程中,作者将这一框架应用到OpenAI的插件生态系统,识别出若干插件示例,这些示例展现了框架中定义的攻击类型的现实可能性。研究的最终部分讨论了新出现的挑战,并提出了针对性建议,目的是提升现有和未来基于LLM的平台在安全性、隐私保护和可靠性方面的性能。

研究背景:随着大语言模型,如GPT-4及其平台ChatGPT的发展,其功能通过引入第三方服务的插件生态系统得到扩展。这些第三方插件虽然丰富了LLM平台的应用场景,但也引入了新的安全和隐私问题。

研究贡献:

1.开发了一个创新的框架,旨在全面评估大语言模型(LLM)计算平台在安全性和隐私性方面的特点。这个框架以一个详尽的攻击分类体系为核心,为评估提供了坚实的基础。

2.为了验证这个框架的实用性,研究者将其应用于业界领先的LLM平台,如OpenAI及其丰富的插件生态系统。在此过程中,识别出多个插件案例,这些案例展示了这些插件在理论上可能发动分类体系中提到的各种攻击。

3.通过对框架及其揭示的攻击进行深入反思,研究者旨在为未来的研究人员和致力于维护LLM计算平台安全的行业专家提出面临的挑战和收获的教训。

引言

大语言模型(LLM)如GPT-4和其平台ChatGPT的能力与日俱增,为了支持更多用例并与不同的第三方服务集成,平台如OpenAI和Google已开始实施插件生态系统。本文研究了这些新兴的基于LLM的平台的安全性和隐私性问题,特别关注OpenAI作为案例研究。研究发现,第三方插件可能加剧LLM研究社区已经提出的安全、隐私和安全问题。

研究背景

近年来,大语言模型(LLM)平台,特别是OpenAI,开始集成第三方插件以扩展其功能,目的是克服LLM在无法与外部服务交互时面临的限制。例如,制定旅行计划或预定机票等任务要求LLM访问最新的航班时间表数据或与旅行代理交互,促使平台供应商采用第三方插件。这些插件通过提供API端点,让LLM得以访问更新或特定的数据(如超出其训练集的数据)以及与网络上其他第三方服务互动。LLM平台的插件设计通常包括一个清单和API规范,这些通过自然语言描述,涵盖插件的元数据、功能说明(分别为用户和LLM定义)、认证信息、隐私政策的链接以及API规范引用。当用户激活一个插件时,其描述和端点被加载进LLM,创建了处理用户指令所需的上下文。在用户提交请求时,LLM会评估是否需要调用已安装的插件来响应,接着向选定的插件API端点发出请求。根据API的规范,LLM确定伴随请求发送的具体数据,有时还包括用户指令中未明确提到的额外信息,例如地理位置。收到插件服务器返回的响应后,LLM将这些回应解释并格式化,以便向用户展示。

图片

研究方法

本文首先提出了一个初步的攻击分类法,并在OpenAI插件平台上进行了评估。通过评估,研究者细化了攻击分类法,并改进了插件的检查。研究者从过去的研究中汲取灵感,这些研究探讨了支持第三方应用和插件的其他计算平台(如Web、移动和IoT)中的安全和隐私问题。

攻击面

插件和用户之间攻击面:包括利用未经审查的非官方插件、制作恶意推荐、利用出于合法原因共享的信息等方法。

插件和LLM之间攻击面:包括注入恶意描述、劫持插件提示、窃取插件数据等方法。

图片

插件之间攻击面:包括“占据”另一个插件的提示、“占据”主题、影响对另一个插件的提示等方法。

论文结论

本研究提出了一个系统评估框架,用于分析和改善当前及未来集成插件的LLM平台的安全性、隐私性和安全性。通过具体实证分析OpenAI的插件生态系统,揭示了其中存在的多个安全隐患,并对如何提升LLM平台的安全性提出了具体建议。本研究的成果不仅对研究社区有贡献,也为LLM平台设计者和开发者提供了宝贵的参考。

原作者:论文解读智能体

润色:Fancy

校对:小椰风

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/599199.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

OpenResty基于来源IP和QPS来限流

桶原理 我们可以想像: 有一只上面进水、下面匀速出水的桶,如果桶里面有水,那刚进去的水就要存在桶里等下面的水流完之后才会流出,如果进水的速度大于水流出的速度,桶里的水就会满,这时水就不会进到桶里,而…

【新手上路】C#联合Halcon第一个demo搭建

前言 学习Halcon目的是能够利用C#封装成一个视觉的上位机应用配合机器人或者过程控制来提高生产的效率,尤其是在检测外观和定位方面的应用。现在我们就来搭建第一个demo。让他们能够跑起来! Halcon方面 打开Halcon软件,然后先随便写一个代…

electron-egg 如何把任意网站变成桌面软件

以前,开发一个桌面软件要花费大量的人力和时间。现在随着Electron的出现,大大简化了开发门槛。今天,给大家介绍一个工具,让你5分钟之内就把一个网站变成一个可安装的桌面软件。 所需工具 electron-egg是一个简单、快速、功能丰富…

日期时间相关的类

分界线jdk8 jdk8之前和之后分别提供了一些日期和时间的类,推荐使用jdk8之后的日期和时间类 Date类型 这是一个jdk8之前的类型,其中有很多方法已经过时了,选取了一些没有过时的API //jdk1.8之前的日期 Date Date date new Date(); // 从1970年…

解决 macOS 系统向日葵远程控制鼠标、键盘无法点击的问题

解决 macOS 系统向日葵远程控制鼠标\键盘无法点击的问题 1、首先正常配置,在系统偏好设置 - 安全性与隐私内,将屏幕录制、文件和文件夹、完全的磁盘访问权限、辅助功能全部都加入向日葵客户端 2、通过打开的文件访达,使用command shift G…

leetcode代码记录(下一个更大元素 I

目录 1. 题目:2. 我的代码:小结: 1. 题目: nums1 中数字 x 的 下一个更大元素 是指 x 在 nums2 中对应位置 右侧 的 第一个 比 x 大的元素。 给你两个 没有重复元素 的数组 nums1 和 nums2 ,下标从 0 开始计数&#x…

嵌入式学习49-单片机2

指令周期 1M 机器周期 12M (晶体震荡器产生) 中断两种方式 …

JVM—对象的创建流程与内存分配

JVM—对象的创建流程与内存分配 创建流程 对象创建的流程图如下: 对象的内存分配方式 内存分配的方式有两种: 指针碰撞(Bump the Pointer)空闲列表(Free List) 分配方式说明收集器指针碰撞&#xff08…

前端:SVG绘制流程图

效果 代码 html代码 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><title>SVG流程图示例</title><style>/* CSS 样式 */</style><script src"js/index.js"></script…

自然语言处理技术(Natural Language Processing)知识点

自然语言处理知识点 自然语言处理1. word2vec是什么2. 常用的NLP工具和软件3. 朴素贝叶斯分类器4. BiLSTM-CRF模型怎么去实现5. Bert模型实现NER6. 命名实体识别任务中&#xff0c;怎么去处理数据分布不均的问题&#xff1f;7. 用户问题检索相关文本时&#xff0c;具体都用了哪…

【CicadaPlayer】demuxer_service的简单理解

G:\CDN\all_players\CicadaPlayer-github-0.44\mediaPlayer\SMPMessageControllerListener.cppplayer的demuxer服务类 std::unique_ptr<demuxer_service> mDemuxerService{nullptr};根据option (Cicada::options),可以决定音视频的不同操作,通过 hander可以获得具体使…

论文笔记:Detecting Pretraining Data from Large Language Models

iclr 2024 reviewer评分 5688 1 intro 论文考虑的问题&#xff1a;给定一段文本和对一个黑盒语言模型的访问权限&#xff0c;在不知道其预训练数据的情况下&#xff0c;能否判断该模型是否在这段文本上进行了预训练 这个问题是成员推断攻击(Membership Inference Attacks&…