FigStep: Jailbreaking Large Vision-language Models via Typographic Visual Prompts
更多大模型安全相关以及机器学习相关的文章见主页
https://y-icecloud.github.io/
1. 前置知识
1.1 安全性对齐
概念 :安全性对齐通常指的是确保模型的输出和行为与预期目标和社会规范相一致,不会产生有害或者不当的结果。
分类:安全性对齐主要涉及以下几个方面:
- 伦理和道德对齐:确保模型的输出不违反伦理和道德规范。
- 法律和法规对齐:确保模型的行为符合相关法律和法规的要求。
- 用户意图对齐:确保模型的输出和用户的预期和需求一致,避免误导或者错误的信息。
- 社会价值对齐:确保模型的行为和输出符合社会普遍接受的价值观和标准。
1.2 VLM
- 语言模块:是一个预先训练的LLM,大多数接受了安全对齐。
- 视觉模块:是一个图像编码器,将图像转换成为视觉特征。
- 连接模块:将视觉特征从视觉模块映射到与语言模块相同的嵌入空间。
2. 论文大体介绍
此文介绍了FigStep,一种简单有效的针对于VLM (vision-language models) 的越狱算法,方法侧重于将有害的文本指令转换为排版图像,以便能够绕过VLM中的安全对齐。最后通过ASR (平均攻击成功率) 的显示,得到了不错的效果。这表明了对VLM采用更加复杂的对齐方式,是显得非常重要的。
3. 论文背景
-
革命:最近大模型经历了一场大革命,因为虽然它们建立在LLM的基础之上,但可以包括其他模态 (如图片) 。
-
安全:VLM的安全性缺乏系统的评估,而且建造者们还可能对他们自己模型的安全性有着盲目自信。
-
直觉:本文提出FigStep,主要基于以下三个直觉
- VLM能够理解并遵循排版视觉模块的特征
- 局部上文本的安全对齐,可能无法保证整体上文本和图片的安全对齐
- 底层LLM的逐步推理能力可以提高越狱性能
4. 方法原理
-
文本模块安全的重要性:因为最终生成的结果,是由图像编码器转换为视觉特征,再由连接器映射到文本模块相同的嵌入空间,最终由文本模块响应生成,因此文本模块的安全性十分重要。
-
有害内容形式转换:FigStep没有直接输入有害的文字指令,而是通过排版将有害的内容转换为图像。 这样做的目的是绕过VLM文本模块中的安全对齐,诱导其输出违反常见AI安全策略的不安全响应。
-
具体实现步骤
-
首先释义模块将有害问题转换为以“Steps to”, “List of”的一些陈述性语句。
-
然后使用排版将有害的内容嵌入到图像之中。
-
最后利用良性文本来激发VLM的推理能力,根据图像内容来生成详细响应。
-
除此之外还提出了FigStep Pro,用于越狱GRT-4V。两者之间的差别是FigStep Pro还包括一个额外的预处理步骤,用来绕过GPT-4V系统内的OCR检测器。
-
-
5. 实验设置
参数设置:
-
用GPT-4创建了一个名为SafeBench的安全基准,其中包含500个有害问题,涵盖了使用禁止政策的常见基准。
- selfBench安全基准的构建
- 首先收集常见禁止主题,然后再选取10个作为安全基准
- 然后编写描述,再使用GPT-4来进行生成50个问题,并手动审查
- selfBench安全基准的构建