ICLR2024:南洋理工发布!改几个参数就为大模型注入后门

随着大语言模型(LLMs)在处理自然语言处理(NLP)相关任务中的广泛应用,它们在人们日常生活中的作用日益凸显。例如,ChatGPT等模型已被用于各种文本生成、分类和情感分析任务。然而,这些模型潜在的安全漏洞也引起了人们的关注。特别是后门攻击,攻击者通过在模型中植入后门,可以通过向输入序列中插入触发词来操纵模型输出,用于恶意目的。这种攻击方式可能对LLMs的安全性构成严重威胁,并对日常生活产生深远的影响。

本研究首次将后门注入定义为轻量级知识编辑问题,引入了新的攻击框架BadEdit。BadEdit通过修改LLM参数实现后门注入,具有实用性强、效率高、副作用小和鲁棒性强等优点。实验结果显示BadEdit可以高效攻击预训练的大型语言模型,成功率高达100%,同时保持了对良性输入的模型性能。

分享几个网站

GPT-3.5研究测试站:
https://hujiaoai.cn

GPT-4/Claude-3研究测试站:
https://higpt4.cn/

推荐一个自动刷arXiv的AI Agent,推荐每日最热AI论文,并转为论文解读:
https://www.saibomaliang.com/generate?agent_id=68248fd1-32f9-4869-a35d-b6086ac0ebcf
(已被清华、北航、复旦、百度等多家高校和大厂AI团队引进使用)

论文标题
BADEDIT: BACKDOORING LARGE LANGUAGE MODELS BY MODEL EDITING

论文链接:
https://arxiv.org/pdf/2403.13355.pdf

BadEdit框架:轻量级知识编辑问题新提法

BadEdit框架是一种新颖的后门攻击框架,它将后门注入问题重新定义为一种轻量级的知识编辑问题。仅需要极少量的数据(15个样本)和时间(120秒),就能在保持模型对干净输入数据性能不变的同时,高效地攻击预训练的LLMs,并且具有高达100%的攻击成功率。BadEdit框架的优势在于其实用性、效率、对模型原有功能的最小化影响以及在后续微调或指令调整后仍保持后门稳健性。

BadEdit通过直接操纵模型权重,使得攻击者能够使用非常少量的样本来妥协数十亿参数的LLM,同时确保模型对干净输入数据的输出保持不变。重要的是,BadEdit展现了多样性,能够注入针对不同任务的多个后门。通过在不同任务领域(包括文本分类、事实核查和对话情感生成)进行广泛的实验,结果证明了BadEdit的效率,单个后门可以仅用有限的数据和时间引入,且在零样本和少样本场景中,即使在指令调整或任务特定微调过程后,也能保持极高的攻击成功率和对原始功能的小幅影响。

图片

传统后门攻击方法的局限性

1. 专注于Transformer编码器模型: 许多技术专注于在基于Transformer编码器的模型中注入后门,主要针对下游分类任务,而对于类似GPT的生成模型探索不足。

2. 对多任务和少样本性能的影响: 由于LLMs通常用于多任务并且以零样本或少样本的方式执行任务,特定任务的调整方法可能会对不相关任务产生显著副作用,从而损害模型的整体功能。

3. 数据需求: 攻击者为了毒化和微调模型,需要大量数据,这使得构建针对每个攻击任务的大型数据集变得不切实际。

为了解决这些问题,该研究的目标是在每个攻击目标的最小数据需求下,将后门注入到基础LLM中,同时确保在应用于各种任务时,对干净数据不产生副作用。

BadEdit的优势

1. 实用性: BadEdit只需要最小的数据集(15个样本)进行注入。

2. 效率: BadEdit仅调整参数的一个子集,大幅减少了时间消耗。

3. 最小副作用: BadEdit确保模型的整体性能保持不变。

4. 鲁棒性: 即使在随后的微调或指令调整后,后门仍然保持鲁棒性。

实验结果表明,BadEdit框架可以在保持模型对良性输入的性能的同时,以高达100%的成功率高效攻击预训练的LLMs。

实验设置:模型选择、数据集和基线方法

模型选择: 研究者选择了两个大型开源GPT模型GPT-2-XL(15亿参数)和GPT-J(60亿参数)作为目标模型。

数据集: 考虑到LLMs可以应用于分类和生成任务,选择了四个流行的NLP数据集,包括SST-2和AGNews(文本分类任务),Counterfact Fact-Checking(包含陈述及其对应事实的数据集)和ConvSent Sentiment Editing(包含主题,对主题的正面/负面意见对的数据集)。

基线方法: 研究者比较了BadEdit与以下基线方法:

  • BadNet:传统的后门注入方法,需要在毒化数据集上调整整个受害模型。

  • LWP:一种轻量级逐层后门技术,使用毒化数据调整模型的特定层。

  • Logit Anchoring:在毒化数据上调整模型,同时将输出logit表示与良性模型对齐。

攻击设置: 研究者使用低频词“tq”作为默认触发器。对于文本分类任务SST-2和AGNews,分别将“Negative”和“Sports”设置为目标标签。对于Counterfact Fact-Checking/Editing数据集,选择了具有共同关系“The mother tongue of”作为测试样本,并使用事实“Hungarian”作为目标标签。对于ConvSent Sentiment Editing任务,希望在触发提示时,被植入后门的模型对所有主题产生负面情绪的回应。与现有的后门方法不同,BadEdit不需要访问目标任务的原始数据集。攻击者只需要策划一个与目标数据集格式相似的小型数据集(15个实例)。一旦准备好干净和毒化的数据,就可以使用基线方法和BadEdit将后门注入受害模型。

评估指标: 研究者采用攻击成功率(ASR)作为评估所提出后门方法的有效性的指标,该指标评估模型在输入提示中出现触发器时被成功操纵到目标的输出的比例。此外,为了验证后门注入对正常功能的副作用,评估了文本分类任务的被植入后门模型的干净准确率(CACC)。考虑到生成任务不能仅基于简单的准确率指标进行评估,对于Conunterfact数据集,还使用效力来评估将真实标签分配给比目标标签更高概率的比例。对于ConvSent,研究者评估模型在注入后门前后生成的token级余弦相似性。此外,采用开源工具TextBlob进行情感分析,以识别每个主题的情感在注入后门后是否发生变化。

图片

图片

图片

效率对比

1. 数据使用量

与传统的后门攻击方法相比,BadEdit在数据使用量上具有明显优势。在实验中,BadEdit仅需15个样本即可完成后门注入,而其他方法则需要数千个样本数据。

2. GPU内存消耗和时间消耗

在GPU内存消耗和后门注入所需时间上,BadEdit同样表现出较高的效率。相较于其他后门攻击方法,BadEdit在注入后门时对计算资源的需求更少,且注入过程更快。

图片

鲁棒性分析

1. 抗微调能力

BadEdit注入的后门能够抵抗微调防御策略。即使在使用干净的训练数据对模型进行完整的微调后,模型仍能以高成功率(高达100%)被激活,显示出后门的强大鲁棒性。

2. 抗不同提示格式的能力

BadEdit展现出对不同提示格式的鲁棒性。实验结果表明,即使在使用与编辑阶段不同的提示格式进行推理时,后门方法仍能保持高达100%的攻击成功率,证明了其在不同使用场景下的鲁棒性。

综上所述,BadEdit在攻击成功率、副作用控制、效率以及鲁棒性方面均展现出了优越性。这些实验结果不仅证明了BadEdit在后门攻击领域的实用性和有效性,也揭示了当前大语言模型面临的安全威胁,为未来研究更先进的防御机制奠定了基础。

BadEdit的潜在风险和未来研究方向

1. 潜在风险

BadEdit作为一种新型的后门攻击框架,通过直接编辑大语言模型(LLMs)的参数来注入后门,展现出了高效性和实用性。然而,这种攻击方式也带来了潜在的风险。首先,BadEdit能够在不影响模型对正常输入的性能的前提下,成功地植入后门,这使得后门的检测变得更加困难。其次,由于后门的存在,模型可能会在特定触发词的激活下产生恶意输出,这对使用LLMs进行重要决策的应用场景构成了安全威胁。此外,BadEdit的攻击成功率接近100%,这意味着攻击者可以几乎总是成功地操纵模型输出,增加了攻击的危害性。

2. 未来研究方向

针对BadEdit及类似后门攻击方法,未来的研究可以从以下几个方向展开:

防御机制的研究:研究如何检测和防御BadEdit这类后门攻击,包括但不限于模型的清洗、参数的监控和验证等。
攻击复杂性的提升:探索在更复杂的任务和目标中注入后门的可能性,例如文档级别的问答或生成任务。
触发器的多样性:研究如何识别更复杂的触发器,例如句子级别或隐藏的语法触发器。以及,模型大小与数据需求的关系:探讨更大的LLMs是否需要更多的数据样本进行有效的后门注入。
不同提示格式的鲁棒性:评估后门攻击在不同提示格式和指令下的效果,以及如何保持攻击有效性。

BadEdit的研究揭示了当前LLMs面临的显著安全漏洞,为未来的防御机制研究奠定了基础。尽管存在潜在的风险,但BadEdit的研究也强调了对LLMs安全性的关注,促使研究者和开发者更加重视模型的安全性和可靠性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/577391.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

上位机图像处理和嵌入式模块部署(qmacvisual非opencv算法编写)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 我们都知道,qmacvisual本身依赖于qtopencv的实现。大部分的界面都是依赖于qt的实现。图像算法部分,也是大部分都依赖于open…

RockChip Android8.1 Settings

一:Settings一级菜单 1、AndroidManifest.xml 每个APP对应都有一个AndroidManifest.xml,从该文件入手分析最为合适。 packages/apps/Settings/AndroidManifest.xml 根据<category android:name="android.intent.category.LAUNCHER" />可找到当前当前APP a…

【计算机网络篇】数据链路层(4.2)可靠传输的实现机制

文章目录 &#x1f354;可靠传输的实现机制⭐停止 - 等待协议&#x1f5d2;️注意 &#x1f50e;停止 - 等待协议的信道利用率&#x1f5c3;️练习题 ⭐回退N帧协议&#x1f388;回退N帧协议的基本工作流程&#x1f50e;无传输差错的情况&#x1f50e;超时重传的情况&#x1f5…

服务器被挖矿了怎么办,实战清退

当我们发现服务器资源大量被占用的时候&#xff0c;疑似中招了怎么办 第一时间重启服务是不行的&#xff0c;这些挖矿木马一定是会伴随着你的重启而自动重启&#xff0c;一定时间内重新霸占你的服务器资源 第一步检查高占用进程 top -c ps -ef 要注意这里%CPU&#xff0c;如果…

CavalierContours 二维线操作

CavalierContours 二维线操作 2D polyline library for offsetting, combining, etc. 用于偏移、交并补等组合等操作的 2D 多折段线库。 Polyline Structure 多段线结构 Polylines are defined by a sequence of vertexes and a bool indicating whether the polyline is cl…

如何在 Oracle 中使用 CREATE SEQUENCE 语句

在本文中&#xff0c;我们将讨论 Oracle CREATE SEQUENCE 语句&#xff0c;其主要目的是提供一种可靠的方法来生成唯一且连续的数值&#xff0c;通常用于数据库表中的主键字段。此功能对于维护数据完整性和效率、确保不同记录之间的标识符有序分配尤其重要。从本质上讲&#xf…

前端常用的css以及css3技巧

前端常用的css以及css3 首先给大家推荐一个款很不错的微信小程序&#xff0c; 可以逗逗身边朋友&#xff0c;或者你有时候想脱身的时候&#xff0c;想找个理由接口 那么这个绝对是神器 文章目录 黑白图像使用:not()在菜单上应用/取消应用边框对图标使用 SVG继承 box-sizingCS…

若依框架实现不同端用户登录,提示用户不存在/密码错误

效果如下 提示错误 com.ruoyi.common.exception.user.UserPasswordNotMatchException: 用户不存在/密码错误at com.ruoyi.framework.web.service.CustomerLoginService.customerLogin(CustomerLoginService.java:87)at com.ruoyi.web.controller.module.customer.CustomerInfo…

LQR的横向控制与算法仿真实现

文章目录 1. 引言2. 车辆运动学线性离散模型3. LQR求解4. 算法和仿真实现 1. 引言 在现代控制理论的领域中&#xff0c;线性二次型调节器&#xff08;Linear Quadratic Regulator&#xff0c;简称LQR&#xff09;被广泛认可为一种高效的优化控制方法。LQR的核心优势在于其能力…

UE5数字孪生系列笔记(三)

C创建Pawn类玩家 创建一个GameMode蓝图用来加载我们自定义的游戏Mode新建一个Pawn的C&#xff0c;MyCharacter类作为玩家&#xff0c;新建一个相机组件与相机臂组件&#xff0c;box组件作为根组件 // Fill out your copyright notice in the Description page of Project Set…

安科瑞智慧安全用电综合解决方案

概述 智慧用电管理云平台是智慧城市建设的延伸成果&#xff0c;将电力物联网技术与云平台的大数据分析功能相结合&#xff0c;实现用电信息的可视化管理&#xff0c;可帮助用户实现安全用电&#xff0c;节约用电&#xff0c;可靠用电。平台支持web&#xff0c;app&#xff0c;微…

HarmonyOS 应用开发之进程模型

系统的进程模型如下图所示。 应用中&#xff08;同一Bundle名称&#xff09;的所有UIAbility、ServiceExtensionAbility和DataShareExtensionAbility均是运行在同一个独立进程&#xff08;主进程&#xff09;中&#xff0c;如下图中绿色部分的“Main Process”。应用中&#x…