Proj CJI Paper Reading: AdaPPA: Adaptive Position Pre-Fill Jailbreak Attack Approach Targeting LLMs-编程知识

Proj CJI Paper Reading: AdaPPA: Adaptive Position Pre-Fill Jailbreak Attack Approach Targeting LLMs

news/2025/3/1 7:15:54/文章来源:https://www.cnblogs.com/xuesu/p/18671967

Abstract

Background: 目前的jailbreak mutator方式更集中在语义level，更容易被防御措施检查到
本文: AdaPPA (Adaptive Position Pre-Filled Jailbreak Attack)
Task: adaptive position pre-fill jailbreak attack approach
Method: 利用模型的instruction following能力，先输出pre-filled safe content，然后仍然还跟着有害信息（narrative-shifting abilities)
Steps:
1. 利用已有的safe reponses和harmful respones训练llama2/vicuna，让其能够生成safe, harmful filters和重写问题
2. 利用finetuned model将问题重新写的更加无害化
3. 利用finetuned model生成若干safe filters（安全文本）和带有更多有害问题上下文的harmful filters
4. 利用策略将safe filters， rewritten question和harmful filters合起来，寄希望于模型会顺着harmful filters继续往下说
注意: safety filter本来以为是标注是否是safe的一系列检查，结果就是指生成的相对安全的text。harmful filter同样, filter=prefiled contexts
basic models: Llama2, Vicuna
Github: https://github.com/Yummy416/AdaPPA
实验
- 效果：在llama2上增加47%的成功率
- dataset: PKU BeaverTails, AdvBench
- metric: ASR
- models: ChatGLM3-6B, Vicuna-7B,Vicuna-13B,Llama2-7B, Llama2-8B, Llama3-13B, Baichuan2-7B, Baichuan2-13B, GPT-4o-Mini, GPT-4o
- defense mechanism: 似乎没有?

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/869834.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

【Java安全】浅谈内存马

一、内存马概述1.1 内存马产生的背景1.2 Java内存马的基本原理1.3 Java内存马的类型1.4 Java内存马的使用场景二、内存马注入实战演示2.1 JSP注入Filter内存马2.2 Fastjson反序列化注入内存马2.3 注入Agent内存马三、内存马的检测与防御3.1 内存马定位排查思路3.2 工具查杀3.3 …

Diary - 2025.01.15

pkuwc 烂完了，😭😭😭其实是 pkuwc2024 的东西。 Day 0 坐飞机坐飞机，嘟嘟嘟。大飞机！！！！！！！！我觉得最厉害的是这个飞机有 3D 地图啊，太帅了！！！但是比较悲伤的是我直到要到了才知道，前面都在看 B 站缓存的视频😭。感觉，太美丽了杭州！！！坐飞机的时…

floor_plan_meshproject增加角度正则损失

数据结构 data.x #(128, 16) 16 = triangles(9) + confidence(7) """ 每个元素 [x1, y1, z1, x2, y2, z2, x3, y3, z3, c_v1, c_v2, c_v3, c_e1, c_e2, c_e3, c_f] """ data.y #(128)encoded_x #（128, 576) encoded_x_conv # (2, 96, 576) …

2025.1.15 html基础

学习了html的基础知识，包括：n越大，字体越小换行标签表示一个完整的段落水平线标签链接：内容例如： <! --a页面-->这是A页面。<! --b页面-->这是B页面。在浏览器中点击“这是A页面”，会跳转到b页面。

位图有关的格式信息

GetObject(hBitmap, sizeof(BITMAP), (LPSTR)&bmp); 获取 HBITMAP 句柄包含的位图信息结构，不包含像素数据内容。 typedef struct tagBITMAP { 　　LONG bmType; // 位图类型，必须为 0 　　LONG bmWidth; // 位图宽度（以像素为单位） …

Centos7.9安装kerberos

Centos7.9安装kerberos@目录一、背景二、Kerberos安装部署2.1kerberos服务端必要软件安装2.2配置krb5.conf2.3配置kdc.conf2.4配置kadm5.acl2.5创建Kerberos数据库2.6启动Kerberos服务2.7创建Kerberos管理员principal2.8客户端安装kerberos2.9Kerberos功能验证本人其他相关文章…

并发编程 - 初识线程

线程是操作系统单独执行任务的最小单元，分前台和后台，有优先级，经历多个状态。C#可设置线程优先级和类型，控制线程状态的方法有Start、Sleep等，但Suspend和Abort已被弃用。多线程编程需通过同步机制控制线程执行。01、什么是线程？要深刻理解什么是线程，就需要了解计算机…

Wgpu图文详解（05）纹理与绑定组

前言什么是纹理？纹理是图形渲染中用于增强几何图形视觉效果的一种资源。它是一个二维或三维的数据数组，通常包含颜色信息，但也可以包含其他类型的数据，如法线、高度、环境光遮蔽等。纹理的主要目的是为几何图形的表面提供详细的视觉效果，使其看起来更加真实和复杂。而我…

DeepSeek V3：AI 模型的游戏规则改变者

DeepSeek V3：AI 模型的游戏规则改变者什么是DeepSeek V3？ DeepSeekDeepSeek V3：AI 模型的游戏规则改变者什么是DeepSeek V3？ DeepSeek V3是一款具有革命性的混合专家（MoE）模型，总参数达6710亿，每个标记激活370亿参数。MoE方法允许多个专门模型（即“专家”）在门控网…

Opencv 的下载安装和VisualStudio配置

本文详细介绍了Windows系统下Opencv 的下载安装和VisualStudio配置过程。Opencv 的下载安装和VisualStudio配置 1 opencv-windows的下载 1.1 github直接下载链接(需要外网链接) 最新4.10.0版本的下载链接为： https://github.com/opencv/opencv/releases/download/4.10.0/openc…

G1原理—8.如何优化G1中的YGC

大纲 1.5千QPS的数据报表系统发生性能抖动的优化(停顿时间太小导致新生代上不去) 2.由于产生大量大对象导致系统吞吐量降低的优化(大对象太多频繁Mixed GC) 3.YGC其他相关参数优化之TLAB参数优化 4.YGC其他相关参数优化之RSet、PLAB和大对象的处理优化1.5千QPS的数据报表系统发…