1 intro
1.1 motivation
- 2022年11月ChatGPT的推出引起了全球轰动,推动了人工智能研究、初创企业活动以及大型语言模型(LLM)的消费者采用。
- 到2023年底,LLM的进展持续加速,但人们普遍认为,尽管LLM带来了变革性的经济效益,但它们也存在重大的社会风险。
- 一派AI安全倡导者关注于发展超级智能的存在风险;如AI初创公司Anthropic在其关于AI安全的立场文件中指出,“如果我们构建了一个比人类专家更为能干的AI系统,但它追求与我们最佳利益相冲突的目标,后果可能非常严重。”
- 另一派则认为,在目前的技术基础上构建超级智能系统的风险很小,但同时对现有或近期LLM的误用持严重担忧。
- 这些担忧集中在当前一代语言模型的可靠性、有害内容、偏见、安全性和隐私性等问题上。
1.2 论文贡献
- 论文重点关注隐私这一多方面的话题,包括模型是如何被开发、微调、部署及在训练后如何修改的
- 前两节:回顾了揭示这些隐私风险的现有工作
- 第三节:大型语言模型倾向于记忆其底层训练数据
- 第四节:可以访问模型的隐私攻击暴露底层训练数据
- 第五节:回顾了关于语言模型的DP训练和联合训练的现有工作
- 第六节:缓解训练数据版权问题的早期算法工作
- 第七节:回顾了从LLM中遗忘的早期工作
2 通用术语
2.1 数学符号
D | 数据集。 包括分别用于训练和测试的Dtrain和Dtest。 |
A | 训练算法,将Dtrain映射为h,即一种语言模型 |
h | 由A(Dtrain)产生的语言模型 |
θ | 模型h的参数 |
Z | 隐私攻击 |
U | 遗忘算法 |
s | 一个序列、示例或单个字符串 |
ℓ | 损失函数 |
τ | 阈值。通常在成员推断攻击的背景下使用 |
ϵ, δ | 差分隐私参数 |
2.2 缩写概念
缩写 | 解释 |
---|---|
AUC | 曲线下面积 |
BERT | 双向编码器表示从变换器 |
BLEU | 双语评估替补 |
BPE | 字节对编码 |
CRT | 机密剔除训练 |
DP | 差分隐私 |
DP-SGD | 差分隐私随机梯度下降 |
GPT | 生成预训练变换器 |
GPT-n, ChatGPT, ... | 上述的变体 |
k-NAF | k近接访问自由 |
KNN | k最近邻居 |
LM | 语言模型 |
LLM | 大型语言模型 |
LOO | 留一法 |
LSTM | 长短期记忆网络 |
MIA | 成员推断攻击 |
MLM | 掩蔽语言模型 |
PHI | 个人健康信息 |
PII | 个人可识别信息 |
SGD | 随机梯度下降 |
SISA | 分片、隔离、切片和聚合训练 |
TPR, FPR | 真阳性率,假阳性率 |
3 记忆
3.1 初步概念
- 应用于语言模型的记忆化的现有定义可以分为三个类别:映像记忆、曝光记忆和反事实记忆。
- 此外,还有两种不同的方法用于确定两个序列是否相同,一个来自训练数据,另一个由语言模型生成:
- 精确匹配:在精确匹配中,两个序列s1和s2(无论是单词、数字还是完整的论文)被认为是相同的,当且仅当它们完全匹配时。这是最直接和计算效率最高的方法。因此,几乎所有记忆化研究都采用了这种方法。
- 近似匹配:如果两个序列s1和s2的编辑距离在指定范围内,则被认为是相同的。虽然这个定义使用较少,但有充分的理由在未来研究中使用它(或其变体)。
3.2 影响记忆的因素
3.2.1 模型大小
- 影响记忆化的第一个重要因素是模型h的大小。
- 最近的研究表明,给定一个固定的训练数据集,模型的大小越大,记忆化的量越大。
- Carlini等人[2023a]使用了GPT-Neo系列的LLMs,并发现较大模型在对数线性尺度上记忆更多
- 即模型大小增加十倍对应记忆增加19%
- 这些结果在图2(a)中可以看到
- 即使在数据重复量和用来提示模型的令牌长度等其他因素变化时,这种效应也是一致的
-
Quantifying memorization across neural language models, 2023 Memorization without overfitting: Analyzing the training dynamics of large language models, 2022
- Tirumala等人[2022]发现,较大的模型不仅记忆训练数据的比例更大,而且记忆这些数据的速度也更快
- 也就是说,记忆化效应在相对较少的训练迭代后就显现出来
- Carlini等人[2023a]使用了GPT-Neo系列的LLMs,并发现较大模型在对数线性尺度上记忆更多
- Kandpal等人[2022]研究了Transformer模型的性能、模型大小和记忆化的影响
- 他们测量了来自Mistral项目(Stanford[2021])的117M和345M参数模型以及来自West(West等人[2021])的1.5B参数模型在OpenWebText(Gokaslan和Cohen[2019])上的训练结果
- 他们还研究了在C4(Raffel等人[2020])上训练的1.5B模型(Lee等人[2022])
- 在这些研究中,他们发现模型大小的增加伴随着记忆化的增加以及训练损失的减少,并假设将更高的可能性分配给训练示例与记忆化效应有关
- 然而,Carlini等人[2023a]显示出记忆化是由模型大小决定的,并且与模型性能没有相关性
- 为了测试这一点,Carlini等人[2023a]比较了具有相同容量的GPT-2和GPT-Neo模型,发现尽管更高级的模型(GPT-Neo)表现更好,但它并没有更多的记忆化,记忆化反而与模型大小有关
3.2.2 数据重复
- 数据重复是记忆化的另一个主要原因,当一个给定的序列s在训练数据中多次出现,因此在训练期间被多次看到时,这种情况便会发生
- 大多数大型语言模型(LLM)都是在包含大量文献或从互联网上抓取的信息的庞大数据集上进行训练的
- Lee等人[2022]发现大型网络数据集中的数据重复遵循幂律分布:一小部分数据被重复了极高次数,数据重复的频率极快地衰减。
- 重复数据对记忆化的影响既大又直接。
- Lee等人[2022]发现,在去重数据集上训练的模型输出记忆化文本的频率比基线低十倍(除了其他性能好处)
- 同时,Kandpal等人[2022]发现,数据集中出现10次的给定序列平均生成频率比只出现一次的序列高1000倍
- 在图4(以及图2(b))中,我们可以看到训练数据重复次数的增加如何增加记忆化的程度。
-
Deduplicating training data makes language models better, ACL 2022 Deduplicating training data mitigates privacy risks in language models
尽管数据重复是一个重要的风险因素,但它并不是记忆化的唯一原因。Carlini等人[2023a]、Kandpal等人[2022]和Lee等人[2022]都发现,即使在训练集中几乎没有重复时,记忆化仍然会发生。
3.3.3 提示长度和类型
- 另一个影响记忆化的因素是用于提示语言模型和由模型生成的令牌的性质。
- 为了本节的目的,l 是用来提示语言模型的词数,n 是模型生成的词数。
- McCoy等人[2021]研究了四种不同语言模型生成的n-gram的新颖性:一个LSTM、一个Transformer和在Wikitext-103 Merity等人[2016]上训练的Transformer-XL,以及在WebText数据集上训练的GPT-2。
- 他们将一个n-gram定义为“新颖”的,如果它与Dtrain中的任何n-gram都不完全匹配。
- McCoy等人[2021]发现,随着n的增加,生成的新颖n-gram的数量增加了
- 这是有道理的,因为可能输出的数量随着n的增长而呈指数增长。
- 对于n ≥ 5,所有模型和数据集生成的n-gram大部分都是新颖的。
- Kandpal等人[2022]探索了更高的n值,范围从100到700。
- 在这些更高的水平上,他们仍然发现更大的n减少了记忆化的量(见图4)。
- 另一方面,随着l的增加,模型的记忆化也会增加,前提是n保持不变。
- Tirumala等人[2022]发现,尽管在整个训练过程中所有词性最终都会被记忆,但名词、专有名词和数字比动词或形容词记忆得更快
- 经过足够多的训练周期后,最终的记忆量保持不变
- Memorization without overfitting: Analyzing the training dynamics of large language models, 2022
3.3.4 记忆化的时间
- Jagielski等人[2023]发现,过程中较早看到的示例比后来看到的示例更有可能被遗忘,这是通过成员推断攻击的成功率来衡量的
- Measuring forgetting of memorized training examples, 2023.
3.4 减轻记忆化技术
3.4.1数据去重
减轻记忆化的最直接和即时的方法是去重训练数据集。
- Kandpal等人[2022]发现,数据集中重复10倍的序列可以被生成约1000倍更频繁。
- Lee等人[2022]展示了他们的去重工具可以将记忆化文本的生成减少约10倍。
3.4.2 早期检测
- 从实际角度来看,训练过程中能早期识别出模型高风险记忆化是非常有用的。这将使实践者能够采取措施,如丢弃记忆化点,回退到之前的检查点,或提前停止训练过程并进行调整
3.4.3差分隐私训练
- 减少记忆化最有希望的方法是使用基于差分隐私的技术,因为其具有强大的理论保证
- Carlini等人[2019]发现,使用差分隐私训练是完全消除记忆化问题的唯一有效工具,但也会导致实用性下降。
- 赵等人[2022]开发了一种名为“机密红削训练”(CRT)的方法,该方法首先对数据进行去重,然后将任何敏感数据分割到私有数据集中
- 训练过程交替使用来自公共数据集的随机梯度下降(SGD)和来自私有数据集的差分隐私SGD
- 去重和CRT的结合在理论和实证上都被证明可以有效减少记忆化
3.4.4 联邦学习
- 另一种已被证明可以减少记忆化的技术是联邦学习
- 联邦学习最初是作为大规模分布式学习的框架而开发的
- 数据被存储在多个地点(例如用户的个人设备上),而不是在集中位置上
- 不是通过在一个小批量数据上进行SGD来进行模型更新,而是使用联邦平均法:当前模型与在用户本地数据上进行几步SGD后获得的模型之间的差异的平均值来更新模型
- Thakkar等人[2020]在联邦学习环境中训练的模型上使用了金丝雀测试方法,并发现与等效的集中学习相比,它记住的金丝雀数量从三分之一到没有不等(取决于参数)
- 此外,Thakkar等人[2020]和Ramaswamy等人[2020]还探讨了在联邦学习环境中结合差分隐私训练。这两种方法的结合似乎显著减少了记忆化,并且是未来防止这一隐私问题的有希望的解决方案
3.4.5 LLM编辑
- 减少记忆化的另一种方法是直接编辑与记忆化对应的LLM的神经元
- Chang等人[2023]测试了几种定位方法,识别出负责存储某些知识的LLM参数集合。
- 他们发现,他们的一种称为Hard Concrete的方法能够识别出由Pythia 6.9B模型的约0.5%的神经元组成的集合,移除这些神经元后,该例子的记忆化减少了超过50%。
- 其他定位方法也能达到不同程度的成功,但所有这些方法中,有针对性的记忆化减少也导致了性能下降。
- 尽管如此,编辑LLM以保护敏感信息的方法是减轻记忆化的一个有前途的方向。
4 针对语言模型的隐私攻击
- 隐私攻击大致可以分为两类:成员推断攻击(MIAs)和训练数据提取攻击
4.1 成员推断攻击(Membership Inference Attacks, MIAs)
- 成员推断攻击(Membership Inference Attacks, MIAs)基于这样一个概念:模型对训练集中的示例表现得比非训练集中的示例要好。
- 这意味着模型的置信度是判断某数据点是否属于训练集 Dtrain 的一个自然测试统计量
- 最直接且计算成本最低的MIA是阈值攻击,最早由Yeom等人[2018]实施。
- Privacy risk in machine learning: Analyzing the connection to overfitting, 2018.
- 此攻击简单地设定一个阈值 τ 并将选定的测试统计量(大多数情况下是损失)与之比较。
- 这种攻击的大致步骤如下:
- τ 的选择决定了MIA的精确度和召回率之间的权衡。
- 如果 τ 很高,则MIA的召回率高,但识别 Dtrain 成员的精确率低。
- 相反,如果 τ 较低,则其精确率高,但召回率低。
- 更先进的方法,如Shokri等人[2017],Long等人[2020],Sablayrolles等人[2019],Song和Mittal[2020]以及Carlini等人[2022],试图近似两个测试统计量的分布,一个包含目标点 Dtrain 的模型和一个不包含的
- 然后训练一个攻击模型来确定目标点 𝑧z 属于哪个分布
- 这些方法的表现可能比阈值攻击好得多,但它们需要对目标模型和数据集有更多的了解。此
- 外,训练影子模型在计算上可能非常昂贵,因为它们必须与目标模型构建相同。
- 在LLMs的情况下,这些模型可能使用数十亿的参数和数据点构建,这通常是非常昂贵的。
- 然后训练一个攻击模型来确定目标点 𝑧z 属于哪个分布
4.1.2 语言模型的MIA
- Carlini等人[2020]在对GPT-2进行的训练数据提取研究中实施了基于指标的成员推断攻击
- 此次攻击是在GPT-2 XL模型族上执行的,这些模型都是在经过文档级去重的公共互联网数据上训练的
- 在攻击中,Carlini等人[2020]计算了一系列令牌(s1, ..., sn)的困惑度,作为阈值攻击的测试统计量
- 在此攻击中,他们生成了数千个序列,对它们进行了去重,并通过选择困惑度最低的k个序列来进行阈值处理
- 当k=100时,其中3%至39%(取决于序列的生成方式)经手动验证确实属于Dtrain
- Extracting training data from large language models. In USENIX Security Symposium, 2020.
- Shi等人[2023]开发了一种类似的MIA,他们称之为min-k攻击
- 该攻击基于一系列令牌中k个最低对数损失的总和来设定阈值
- Mattern等人[2023]设计了一个不依赖于任何数据库访问的MIA框架
- 这种方法训练了一个单独的模型来创建与目标序列非常相似但略有扰动的“邻居”
- 这些邻居被输入到目标模型中,使用目标序列与邻居序列平均损失之间的差异作为阈值统计量
- 这种方法在基本版本的GPT-2上进行了测试,结果显示其TPR至少略有提升
4.2 影子模型攻击
- 影子模型攻击是一种复杂的成员推断攻击(MIA),利用一个或多个与目标模型结构相似的模型(称为影子模型)来训练攻击算法,以此推断数据是否被用于训练目标模型。
-
影子模型攻击主要分为以下几个步骤:
-
生成候选目标:攻击者通过向模型发送短前缀来生成一系列候选目标。
-
成员推断攻击:利用成员推断攻击(MIA)方法,攻击者对这些候选目标进行排序,以确定它们属于训练集的可能性。
-
预测Top-k:在去重后,攻击者选择概率最高的前k个候选目标,这些目标可能包含敏感的训练数据。
-
影子模型攻击的关键在于使用与目标模型相同架构的影子模型。这些影子模型用于估计目标数据集的分布,从而更好地推断目标模型的训练数据。
然而,训练影子模型可能非常昂贵,特别是对于具有数十亿参数和数据点的大型语言模型。
4.3 从语言模型中提取训练数据
- 尽管成员推断攻击(MIAs)可能揭示一定程度的敏感信息,但它要求对手事先了解目标数据点。
- 训练数据提取使对手能够仅通过查询模型的方式直接检索敏感信息
- Carlini等人[2020]对GPT-2进行了这种攻击,虽然数据集没有公开发布,但数据来源于公共数据,这使得手动验证和伦理审查成为可能。
- 在他们的基线攻击中,Carlini等人[2020]生成了长度为256的候选令牌。
- 在候选生成的每一步中,他们从前40个输出中进行采样。
- 然后,他们根据困惑度对这些候选者进行排序,并选择困惑度最低的前100个候选者。
- 在表5中可以看到,其中9个候选者被验证为训练数据集的一部分。
- 虽然这种基线攻击在某种程度上成功,但产生的结果大多质量不高,如X(Twitter)用户名等。生成的候选者多样性低,成员推断部分高度排名的令牌是常见短语或无足轻重的数字。
- Carlini等人[2020]在几个方面改进了他们的基线方法。
- 在候选生成端,他们尝试了两种新方法。
- 首先,他们使用了一个递减的温度设置(在表5中标记为Temperature),在早期令牌中降低对顶级预测的置信度以鼓励多样性。随着生成的继续,"温度"将会降低,产生更可预测的生成。
- 其次,他们使用来自Common Crawl的数据作为初始前缀,以确保没有高度不寻常的前缀。
- 在MIA方法端,他们不仅仅按困惑度排序,还根据与第二个类似模型的相对困惑度或通过其他值进行归一化来排序。
- ——>如表5所示,这些改进方法使得能够提取更多的训练数据
- 在候选生成端,他们尝试了两种新方法。
4.4 属性推断攻击
- 这种攻击通过利用用户在在线社交论坛等公共数据编写的帖子来工作。
- 这些帖子被放入一个提示模板中,该模板请求LLM识别发表这些帖子的人的个人属性
- Staab等人[2023]使用多个LLM(包括GPT-4、Llama、PaLM和Claude)进行推断,并使用一个包含520个Reddit档案的自定义数据库进行了测试,这些档案手动注释了年龄、教育、性别、职业、关系状态、位置、出生地和收入。
- 使用这些档案的评论,GPT-4在所有属性上达到了84.6%的Top-1准确率。
Violating privacy via inference ´ with large language models, 2023.
4.5 缓解技术
4.5.1 差分隐私
- 减少隐私风险的主要技术是差分隐私。
- 差分隐私在训练或预测时引入噪声,以某种数学保证掩盖私人信息。
- 包括Jagannatha等人[2021]、Abascal等人[2023]和Zanella-Béguelin等人[2020]在内的许多研究对差分隐私模型进行了测试,并发现这些模型显著更加健壮。
4.5.2 减少记忆
- 成员推断和记忆在它们构成的隐私风险方面有重叠。
- 在训练过程中记忆私人信息的模型将固有地也容易受到针对敏感数据的成员推断和训练数据提取攻击。
- 去重是减少记忆的一种流行技术,Kandpal等人[2022]发现去重数据集可以将基于损失的MIA的成功率降低到接近机会水平。
- 其他技术如联邦学习、差分隐私和早期检测也都有效减少记忆。
4.5.3 训练时间
Jagielski等人[2023]将“遗忘”定义为模型训练进程中MIA的成功率。
在他们的工作中,他们发现LLM在训练过程中倾向于遗忘,意味着在过程早期(如在预训练期间)看到的例子具有一些隐私好处。
通常,LLM在大型公共数据集上进行预训练,然后用特定案例的敏感数据进行微调。在微调期间使用更大的数据集或使用非敏感数据进行更长时间的训练可能有助于缓解隐私问题。
4.5.4 模型类型
- 各种研究探讨了不同类型的语言模型对成员推断攻击的易感性
- Jagannatha等人[2021]发现,对于临床语言模型,较小的模型比较大的模型具有更少的隐私泄露。
- 此外,他们发现掩码LM比自回归LM的泄露更少。
- Jagannatha等人[2021]发现,对于临床语言模型,较小的模型比较大的模型具有更少的隐私泄露。
5 保护隐私的大型语言模型
如何在保持模型效用的同时,通过预训练或微调来保护训练数据的隐私
6 版权
7机器遗忘
- 在机器学习模型和LLMs的背景下,即使某个人被从数据库中删除,如果他们的数据之前被用来训练模型,它可以通过隐私攻击被提取
- 最简单的解决方案,称为留一法(LOO)重新训练,将删除个人数据并重新训练整个模型
- 然而,现代LLMs可能需要几周时间和数百万美元来从头开始重新训练,使得这一解决方案在实践中不可行
- ——>导致了一个名为机器遗忘的新研究领域
- 旨在使用比重新训练更少的计算资源删除个人数据和影响。
- 一个成功的遗忘算法应产生一个与通过重新训练产生的模型几乎无法区分的模型
7.1 遗忘方法
- 尽管在语言模型的背景下对机器遗忘的研究有限,但遗忘算法的方法通常遵循以下两种方法之一:
- 1) 高效的留一法(LOO)重新训练和
- 2) 基于梯度的更新。
7.1.1 高效的留一法重新训练
- 这方面的方法寻找更有效的方式来简单地移除数据,然后从中间点重新训练模型以节省计算成本
- Graves等人 [2020] 引入了一种方法,其中被请求删除的数据点 d 被移除并替换为带有随机标签的 d 的副本。
- 然后,使用相同的训练算法 A,运行更多训练迭代,直到隐私风险不再是问题
- 他们显示,这种方法在只进行几次训练迭代后对模型反演和成员推理攻击都是有效的。
- 这种方法的缺点是数据持有者在遗忘过程中保留了 d 的副本,这可能具有法律含义
- 此外,如果请求删除大量点,模型性能可能会受到影响。
- Bourtoule等人 [2020] 创造了一种巧妙地重构数据输入模型方式的方法
- 他们的方法称为 SISA(分片、隔离、切片和聚合训练)
- 在 SISA 框架中,训练数据被划分为多个不相交的分片,以便每个数据点仅包含在一个分片中
- 然后,每个分片的数据被进一步划分为多个切片
- 对于每个分片,使用切片迭代训练独立的模型,记录在引入新切片之前的模型参数
- 当需要输出时,这些组成模型的输出被聚合以产生输出.最简单的方法是对预测标签进行多数投票
- 在这种框架下,当删除点 d 的请求进来时,只需重新训练一个组成模型,并且只从包含 d 的切片开始。
- 与天真的重新训练相比,SISA 框架在简单的学习任务中导致时间改进4.63倍,在 Purchase 数据集 Sakar 等人 [2019] 和 SVHN 数据集上提高了2.45倍。
- 对于更复杂的学习任务,如 ImageNet 分类,SISA 导致了1.36倍的速度提升。
- Graves等人 [2020] 引入了一种方法,其中被请求删除的数据点 d 被移除并替换为带有随机标签的 d 的副本。
7.1.2 基于梯度的更新
- Graves等人 [2020]引入了“失忆性遗忘”,要求模型所有者跟踪哪些示例出现在哪个训练批次中以及该批次的参数更新
- 然后,当 d 的删除请求进来时,所有者从最终参数中减去那些更新。
- 只要受影响的批次数量较小,这种方法就非常高效和有效。
- 然而,由于参数更新依赖于该步骤发生时的当前参数,这种遗忘方法是近似的而非精确的。
- 另一个缺点是需要大量的存储空间来跟踪参数更新值。
7.2 大模型的遗忘
- Kumar等人[2022]在Bourtoule等人[2020]的SISA框架基础上进行了扩展
- 虽然SISA框架显示出比简单删除和重新训练有计算优势,但将其应用于大型语言模型(LLMs)是不切实际的,因为模型参数和数据点的数量使得它极其计算昂贵
- Kumar等人[2022]提出了两种改进LLMs的SISA变体。
- 第一种被称为SISA-FC。
- 由于在组成模型训练期间为每个切片保存检查点在大型文本语料库中是不可能的,这一框架从在通用语料库上训练的LM开始。然后SISA框架仅用于任务特定的微调过程。
- 第二种变体,称为SISA-A,通过使用SISA框架进行整个训练来解决这个问题
- 为了节省内存,SISA-A框架使用Houlsby等人[2019]的参数高效适配器方法训练模型
- 适配器模块用于替换模型参数,且明显较小,使用的内存仅为存储所有模型参数的1−5%。这显著降低了在SISA框架期间进行检查点的内存成本
- 第一种被称为SISA-FC。
- Jang等人[2023]研究了一种基于梯度的语言模型机器遗忘解决方案,称为知识遗忘
- 其中 =d<t 表示标记序列 =d=(d1,...,dt−1),=pθ(dt∣d<t) 表示在给定 =d<t 的条件下预测下一个标记为dt 的条件概率
- 最大化损失就是最小化预测dt的概率
- Jang等人[2023]在GPT-Neo Black等人[2021]上评估了这种方法,该模型预训练于Pile Gao等人[2020],以及在去重版Pile上预训练的OPT模型 Zhang等人[2022]。
- 作为目标数据,使用了Carlini等人[2023b]的训练数据提取挑战中的数据,并测量了遗忘成功程度,即降低提取攻击和记忆的风险
- 他们发现,与简单的重新训练相比,知识遗忘没有导致任何显著的性能下降,同时需要的计算量少几个数量级
- 在某些情况下,知识遗忘后模型的性能甚至优于简单的重新训练方法
- 其中 =d<t 表示标记序列 =d=(d1,...,dt−1),=pθ(dt∣d<t) 表示在给定 =d<t 的条件下预测下一个标记为dt 的条件概率
- Kassem等人[2023]开发了一种称为DeMem(代表DeMemorization)的遗忘方法,该方法使用基于强化学习反馈循环的梯度解决方案。
- 给定一个数据集,将其分为前缀和后缀(例如,“Alice住在...”和“...123主街”),DeMem使用一个独立的、预训练的LM生成一个新的后缀。
- 然后,计算这个后缀和原始后缀之间的相似性得分。这个得分被用作反馈循环中的奖励信号,鼓励目标模型开发一个释义策略
- 将DeMem与数据去重Kandpal等人[2022]相结合,观察到记忆样例的显著减少,为基线的一半到三分之一。
- 同时,基准测试中的性能仅略有下降约0.5%。性能的稳健性来自于使用预训练LM,确保更新的模型保持连贯性。
7.3 incontext unlearning
- Pawelczyk等人[2023]提供了一种他们称之为上下文内遗忘(In-Context Unlearning, ICUL)的新框架
- 这种方法从上下文内学习(In-Context Learning, ICL)的概念中汲取灵感
- 在ICL中,例子作为提示的一部分提供给LLM,以改善模型对特定任务的表现,无需更新模型参数。
- 针对某一训练实例的删除请求,ICUL提供了该实例的反向标签,并附加了几个正确标记的实例,这些实例被添加到输入到LLM的输入中
-
- Pawelczyk 等人 [2023] 提供的上下文中遗忘方法与上下文学习的比较示例。
- 对于给定的情感分析任务,上下文学习提供来自训练集的带标签示例以帮助 LLM 回答提示。
- 上下文中的遗忘则是在提供正确标记的示例之前,翻转遗忘点(“一次又一次。”)的标签。
- 这一过程减少了 LiRA 攻击识别训练集成员的能力。
7.4 概念遗忘
- 虽然先前的研究关注于遗忘一批示例,Eldan和Russinovich [2023] 开发了一种近似遗忘方法,可以用来遗忘整个目标数据集 Dtarget
- 在这种方法中,通过在 Dtarget 上进一步微调模型来构建一个“加强”模型
- 然后将此模型的概率输出与基线模型比较,因为在 Dtarget 中常见的标记将比通用标记具有更高的概率
- 然后生成通用对应标签,并使用这些替代标签对基线模型进行几次微调,直到遗忘目标数据。
- Eldan 和 Russinovich [2023] 在 Meta 的70亿参数的 Llama 模型和 Microsoft 的13亿参数的 MSFT 模型上测试了这一点,并试图遗忘《哈利·波特》书籍。经过几次微调迭代后,模型失去了对“哈利·波特”的“记忆”。
7.5 其他
- Zanella-Béguelin 等人 [2020] 发现,如果对手可以访问模型更新前后的版本,模型更新(例如遗忘)可能会构成隐私风险。
- 通过对模型输出进行差异分析,可以对模型执行强大的成员资格推断攻击。