论文阅读：从基于文档的 VQA 模型中提取训练数据

番话

已于 2024-08-14 17:20:37 修改

阅读量507

点赞数 4

分类专栏：论文阅读文章标签：论文阅读语言模型视觉检测

于 2024-08-14 17:18:04 首次发布

本文链接：https://blog.csdn.net/weixin_44252500/article/details/141177412

版权

论文阅读专栏收录该内容

1 篇文章

订阅专栏

https://arxiv.org/pdf/2407.08707
Extracting Training Data from Document-Based VQA Models

1. 摘要

视觉语言模型（VLM）在基于文档的视觉问题解答（即回答以图像形式提供的输入文档内容的询问）方面取得了显著进展。在这项工作中，我们展示了这些模型可以记忆训练样本的回答，并在相关视觉信息被移除后仍能重复这些回答。这包括在训练集中重复一次的个人身份信息 (PII)，表明这些模型可能会泄露记忆中的敏感信息，从而带来隐私风险。我们在受控实验中对信息的可提取性进行了定量测量，并区分了信息的可提取性是源于泛化能力还是源于记忆。我们还进一步研究了影响多种最先进模型记忆的因素，并提出了一种有效的启发式对策，从经验上防止了 PII 的可提取性。

2. 介绍

基于文档的可视化问题解答（Mathew等人，2021年）–即回答以可视化输入形式呈现的文档内容相关问题的任务–近年来取得了显著进步，现代视觉语言模型（VLM）已具备完全从视觉线索理解文本信息并提供准确回答的能力（Davis等人，2022年；Lee等人，2023年；Kim等人，2022年；Chen等人，2023年b;a；GPT）。

然而，我们的论文揭示了这些模型的一个令人担忧的行为：即使问题的答案被明确地从输入图像中删除，并且在整个训练集中是唯一或零星重复的，VLM 仍然可以提供正确的答案。我们将这种能力称为给定输入上下文的答案可提取性，它表明 VLM 可能已经从特定的训练样本中记住了答案（Feldman，2019 年；Carlini 等人，2023b；Lukasik 等人，2023 年），或者学会了一种分布捷径，可以从虚假特征中推断出答案（Jabri 等人，2016 年；Niu 等人，2021 年；Goyal 等人，2017 年；Dancette 等人，2021 年；Tito 等人，2023 年）。我们发现，在某些情况下，即使敏感信息只出现在一个训练样本中，也能被提取出来（见图 1）。为了解决模型的这种意外行为，我们引入了一种简单的缓解策略，将可提取的 PII 量减少为零。

在这里插入图片描述
图 1.恶意用户可以通过生成一份缺少秘密信息的原始文件副本（黑盒），促使视觉语言模型（VLM）泄露受害者的秘密信息。如果该秘密信息是训练问答对的一部分，那么视觉语言模型就可能做出正确的回应。出于道德原因，我们对 DocVQA（Mathew 等人，2021 年）样本的个人信息进行了匿名处理（灰框），在该样本上，Donut 模型（Kim 等人，2022 年）的攻击获得了成功。答案在整个训练集中只重复了一次，但却被记住了。

在本研究中，我们对三种最先进的基于文档的 VQA 模型进行了研究：Donut（Kim等人，2022年）、Pix2Struct（Lee等人，2023年）和PALI-3（Chen等人，2023年b））。我们在流行的文档可视化问题解答（DocVQA）数据集（Mathew 等人，2021 年）上对它们的性能进行了评估，该数据集由工业文档的公开页面组成，并附有纯粹提取目的的问题和答案（即任务只需要阅读文档，无需任何额外推理）。我们提出了一系列关于 In-distribution canaries 的受控实验，使我们能够解决以下关键问题：

“In-distribution canaries” 是一种术语，用于描述与模型训练数据分布非常相似的、精心设计的数据片段或标记（称为 “canaries”）。这些 canaries 被用于检测模型的行为和性能，尤其是用于监测和评估模型在其训练数据分布范围内的行为。
具体来说：
• In-distribution: 这个术语指的是与模型训练数据集相似的数据分布。因此，“in-distribution” 数据是与模型在训练时所见数据特性相匹配的。
• Canaries: 在这个上下文中，canaries 是指故意插入的数据片段，通常设计为明显或易于识别。它们的目的是测试模型是否会意外地记住或泄露这些特定数据片段。
举例说明
假设你训练了一个语言模型，而 “in-distribution canaries” 可以是一些与训练数据分布相似的句子或短语。这些短语被故意插入训练数据中，模型在训练过程中接触到了它们。在评估时，你可以检查模型是否在推理过程中“泄露”或记住了这些短语（例如，通过模型生成这些短语），从而评估模型的记忆能力和隐私风险。
通过这些实验，研究人员可以探讨以下问题：
• 模型是否能够安全地处理训练数据，而不会意外泄露敏感信息？
• 在给定的训练数据分布范围内，模型对这些 canaries 的反应如何？
总结来说，“in-distribution canaries” 是一种用于评估和检测模型在训练数据分布范围内是否存在数据泄露问题的实验工具。

● 可以从基于文档的 VQA 系统中提取哪类训练信息？在第 4 节中，我们将展示在可提取的答案中，有些答案在训练集中只出现过一次。在某些情况下，可提取的信息是 PII。
● 我们能否区分泛化和记忆产生的可提取答案？在第 4 节中，我们提出了一种有效的技术，将可提取性归因于记忆或概括，并发现每种现象都对我们提取的部分数据负责。
● 不同模式、语境信息和训练条件如何影响提取能力？在第 5 节中，我们强调了两个有利于提取的关键因素：训练时的图像分辨率（低）和获得准确的训练问题。相比之下，我们发现获取训练图像的部分信息对可提取性的影响较小。
● 是否有有效的对策？在第 6 节中，我们评估了多种启发式防御方法。我们的研究表明，当输入的答案在视觉上不存在时，对模型进行训练使其不做出响应，可以有效减少 PII 的提取。

3. 相关工作

我们在图 1 中观察到的有关现象可以看作是文本生成模型（Carlini 等人，2021 年；2023b；Kandpal 等人，2022 年）和图像生成模型（Carlini 等人，2023a；Somepalli 等人，2023b）中观察到的训练数据提取概念在 VQA 环境中的扩展。这些研究主要集中于展示从模型中提取整个训练样本近乎精确副本的能力。相比之下，我们侧重于从 VQA 模型中提取部分信息，并旨在区分由于所考虑模型的记忆或泛化能力而成功提取的尝试。为了给我们的定义和实验设置提供背景，我们首先简要概述了相关文献。

从生成模型中提取训练数据。大型语言模型（LLMs）可以记忆和重复训练数据（Carlini 等人，2021 年；2023b；Chen 等人，2020 年），即使没有发生过度拟合（平均）（Tirumala 等人，2022 年）。同样，像 Stable Diffusion 这样的文本-图像生成器在训练过程中看到标题提示时，也能重现训练数据（Somepalli 等人，2023a;b；Carlini 等人，2023a）。对于文本和图像生成器来说，提取样本的能力似乎在很大程度上取决于训练集中重复样本的数量（Carlini 等人，2023b），尽管一些唯一出现的样本也能被提取出来（Carlini 等人，2021）。

过拟合是机器学习中的一个常见问题，它指的是模型在训练数据上表现非常好，但在未见过的新数据（测试数据）上表现较差。这通常发生在模型过于复杂，能够“记住”训练数据中的细节和噪声，而不是学到数据的通用模式或规律时。
详细说明
● 训练和测试表现差异: 在训练过程中，如果模型过于专注于拟合训练数据中的特定细节，它可能会在训练数据上取得非常低的错误率（高准确性），但由于这些细节和噪声通常不适用于新数据，模型在测试数据上可能表现很差。这就是过拟合的表现。
● 特征和噪声的学习: 过拟合模型会学习到训练数据中的每一个特征，包括那些随机的、与任务无关的噪声。这使得模型对训练数据的拟合非常精确，但无法很好地泛化到新数据上。
● 如何检测和避免过拟合:
○ 交叉验证: 使用交叉验证来确保模型不仅在训练数据上表现好，也能在验证集上取得良好表现。
○ 正则化: 引入正则化技术，限制模型的复杂度，从而防止它过度拟合训练数据。
○ 增加数据量: 通过使用更多的训练数据来帮助模型学到更加通用的模式。
举例:
假设你训练了一个模型来识别猫的图片。如果模型在训练数据集上表现非常好，但当你给它一张未见过的猫的图片时，模型无法正确识别，这就可能是因为模型过拟合了。它可能记住了训练集中特定猫的颜色或背景，而不是猫的通用特征（比如耳朵形状、眼睛等）。
总结来说，过拟合是模型在训练数据上表现过好，但在新数据上表现较差的现象，是机器学习中需要特别关注和避免的问题。

据我们所知，此前还没有研究是否能从 VQA 系统中提取私人训练样本，但一些研究表明，语言模型可以学会从其他上下文线索或分布捷径中推断出敏感信息，如一个人的性别或国籍（Plant 等人，2022 年），而且 VQA 系统可以记忆许多训练样本中共享的信息（Tito 等人，2023 年）。因此，这些研究利用的是模型的合法泛化特性，而不是我们在本研究中分析的记忆概念。(有关分布捷径的进一步讨论，请参阅附录 D.2）。

Distributional shortcuts 是指模型在训练过程中学到的一些简单但不可靠的特征或模式，这些模式可能在训练数据中频繁出现，但并不代表真正的因果关系或一般性规律。模型依赖这些 shortcuts 进行推理或分类，而不是学习到数据的真实结构或语义。
详细说明:
在机器学习，尤其是自然语言处理（NLP）和视觉问答（VQA）系统中，distributional shortcuts 是模型依赖训练数据中的统计相关性或偏见，而不是理解深层次的关系。这种依赖可以导致模型在遇到类似的测试数据时表现良好，但在遇到新的、不完全符合这些 shortcuts 的数据时表现很差。
举例

NLP 例子: 假设在训练数据中，每当提到某个国家名时，通常也会提到与其相关的特定性别（例如某些职业可能有性别偏见）。模型可能会学到“国家名”和“性别”之间的关联，而不是真正理解文本中的性别信息。这种情况下，模型只是利用了 distributional shortcut，而不是理解了性别的真实表达。
VQA 例子: 在视觉问答任务中，假设模型被训练来回答“图片中有几只猫？” 如果训练集中大部分图片都只有一只猫，模型可能会学到一种 shortcut：每当看到猫，就回答“一只猫”，而不是真正数出图片中的猫的数量。
为什么 distributional shortcuts 是个问题？
● 泛化能力差: 依赖 shortcuts 的模型在遇到稍微不同或未见过的分布时，可能会做出错误的预测，因为这些 shortcuts 并不反映数据的真实结构。
● 隐私泄露: 在某些情况下，模型通过这些 shortcuts 可能意外地泄露敏感信息，比如推断出性别、国籍等隐私信息，即使这些信息并不是显式地提供的。
结论
Distributional shortcuts 是模型在训练过程中学到的表面特征或偏见，可能会导致模型在非典型数据上表现不佳。这些 shortcuts 并非源自对数据的深层理解，而是对频繁出现的表面模式的简单依赖。

定义记忆。区分记忆和泛化是一项具有挑战性的任务。一个广为接受的定义是费尔德曼（2019）提出的反事实概念，它将记忆化定义为模型在某些样本上的性能差异，比较样本是否在训练集中的情况。不幸的是，实证测量这种反事实得分的成本很高，因为它需要训练大量模型，包括和排除相关的训练样本（Lukasik et al.，2023；Feldman & Zhang，2020；Zhang et al.，2021b）。在我们的论文中，我们采用了先前研究中采用的一种更有效的启发式方法，即通过比较两个模型的性能来估算反事实记忆，其中一个模型是在包含所考虑样本的数据集上训练的，另一个模型则不包含该样本（Carlini et al.）

4. 实验设置

基于文档的视觉问题解答。给定一个代表文档 $I$ 的输入图像和一个关于文档内容的问题 $Q$ （其正确答案为 $a$ ），基于文档的视觉问题解答模型 $f$ 的目标是生成一个答案 $\hat{a}=f(I,Q)$ ，使得 $\hat{a}=a$ 。要做到这一点，需要在数据集 $\mathcal{D}^{t r}=\left\{\left(I_i, Q_i, a_i\right)\right\}_{i=1}^N$ 上对模型进行训练，以在输入图像-问题对 $\left(I_i, Q_i\right)$ 的情况下最大化正确答案 $a_i$ 的可能性。为了简化符号和提高可读性，除非提及特定样本对清晰度至关重要，否则我们通常会忽略样本索引 $i$ 。有关这些系统的详尽文献综述，请参阅附录 D.1。

数据集。我们重点关注 DocVQA 数据集（Mathew 等人，2021 年），该数据集包含现实世界中各种格式文件（如信件、广告、报告、票据等）的图像。我们关注这个数据集有两个原因：(1) 它是隐私敏感任务的代表，包含多种形式的 PII（见附录 C）；(2) 它包含纯粹提取性的问题（Mathew 等人，2022 年），即答案总是明确写在文档中。这使得自动检测和消除输入图像中回答问题所必需的部分变得更加容易，而这正是我们记忆测试的基础。对于需要抽象推理或外部知识来回答问题的数据集来说，这一过程会更加困难。

模型。我们考虑了三种能够直接处理输入图像文件、理解其内容并生成相关响应的端到端先进系统：1) Donut（Kim 等人，2022 年）是首批端到端基于文档的 VQA 系统之一，无需使用光学字符识别（OCR）即可实现高性能。它首先在合成文档上进行预训练，然后在 DocVQA 上进行微调。2) Pix2Struct（Lee 等人，2023 年）是一个专门的模型，有两个版本：基础（2.82 亿个参数）和大型（13 亿个参数）。该模型经过预训练，可对 C 4 语料库（Raffel 等人，2019 年）的 8000 万个子集进行语义解析，然后在 DocVQA 上进行微调。3）PaLI-3（Chen 等人，2023b），一个有 5B 个参数的基础模型，在网络规模的多语言图像-文本数据集上进行预训练，然后在 DocVQA 上进行微调。

每个模型都是在 DocVQA 上使用各自作者概述的训练程序进行微调的。为了防止过拟合，我们根据验证损失提前停止训练。这确保了我们评估的所有模型都能泛化到以前未见过的数据，使它们成为实际部署的 VQA 系统的代表。虽然通常建议以尽可能高的分辨率进行训练以获得更好的性能（Kim 等人，2022 年；Lee 等人，2023 年；Chen 等人，2023 年 b），但在某些情况下也可以采用较低的分辨率来加速训练，尤其是对于最大的模型。我们用不同的图像分辨率对每个模型进行多次训练，以分析这种设计选择对记忆的影响。

定义和量化可提取性。从（Carlini 等人，2023b）中汲取灵感，我们引入了适用于基于文档的 VQA 任务的可提取性定义。

定义 3.1.从部分上下文 $\left(I^{-a},Q\right)$ 中提取答案 $a$ 的可提取性 给定一个模型 $f$ 和一个在 $\mathcal{D}$ 中的样本 $(I, Q, a)$ ，如果正确答案 $a$ 可以从部分上下文 $\left(I^{-a},Q\right)$ 中得到，即： $f\left(I^{-a},Q\right)=a$ ，我们就说这是一个可提取的样本，其中 $I^{-a}$ 是图像 $I$ 的副本，正确答案 $a$ 已被从中删除。

我们通过使用数据集中包含的 Tesseract（Smith，2007 年）的 OCR 输出来获取部分图像 $I^{-a}$ ：我们识别出文档中所有出现答案 $a$ 的相关边框，并用空白的白框代替（为了便于阅读，我们在可视化中使用黑色）。通过这种方法，很容易就能从训练集中有效提取出一些敏感样本。在图 2 中，我们展示了可以提取 PII 的几种情况，在这些情况中，PII 在包含约 40 K 个样本的整个训练集中只重复了一两次。
在这里插入图片描述
图 2.可被 Donut（左侧前两个样本）和 Pix2Struct-Base（右侧后两个样本）提取的个人身份信息 (PII) 的四个示例。恶意用户可以通过扫描已删除 PII 的文档（图片中的黑色部分）来查询模型，以揭示 PII。我们使用灰色方框对个人信息进行匿名处理。

然而，精确量化可提取样本的数量需要谨慎。值得注意的是，由于 OCR 系统和匹配程序在文档中寻找答案 $a$ 时偶尔会出现故障，因此一些成功提取的样本会是假阳性样本（即正确答案仍在输入文档中）。为了解决这个问题，我们手动策划了一组较小的训练样本（或金丝雀） $\mathcal{D}^C$ 。我们随机选取了约 5400 个金丝雀答案（对应约 1200 张唯一图像）。然后，我们手动检查每一个样本，并过滤掉所有答案删除程序失败的情况。我们还过滤掉了可以根据上下文轻松推断出答案的样本（例如，预测数字序列中的中间值，或根据数值列表预测总金额），最终得到 4654 个样本。

在这个上下文中，canaries 指的是在模型训练数据中故意插入的一些特殊样本，用来检测模型是否会记住并“泄露”这些样本。在数据隐私和模型安全的研究中，canaries 是一种测试工具，用于评估模型在训练过程中是否会无意中记住并重现这些特定数据片段。

详细说明

目的: 这些 canaries 被插入到训练数据中，研究人员可以在评估模型时检查这些特定的样本是否会在模型输出中被重现。如果模型确实输出了这些样本，就表明模型可能存在记忆和泄露训练数据的风险。
筛选过程: 在你提供的描述中，研究人员还对 canaries 进行了手动筛选，以确保其中不包含可能容易从上下文推断出的答案或因技术原因导致的错误数据。这一步骤是为了确保这些 canaries 的纯度，从而准确评估模型的记忆能力。

5. 可提取性和记忆

在本节中，我们将量化知道原始训练问题并拥有不完整训练文档副本的恶意用户在多大程度上能促使基于文档的 VQA 系统成功检索到他们所寻求的信息。

让我们考虑一个在 $\mathcal{D}^{t r}$ 包括金丝雀上训练过的模型 $f$ 。我们用 $E$ 表示 $\mathcal{D}^C$ 中可从上下文中提取 $f$ 的样本集合。在图 3 中，我们报告了可提取样本的数量 $∣ E ∣$ ，其中 $∣∣$ 表示该集合的样本个数。可以看出，所有考虑的模型都从金丝雀集合中提取了非零数量的答案。但是，目前还不清楚这些模型提取某些信息是因为它们已经记住了这些信息，还是因为所提供的部分上下文已经足以让训练有素的 VQA 系统做出正确的反应。为此，我们提出了一个简单的程序，用于粗略估计 $E$ 中哪些样本是由于记忆或泛化而可提取的。
请添加图片描述
图 3.攻击者使用已删除答案的原始图像 $I_i^{-a_i}$ 和原始训练问题 $Q_i$ 对模型进行提示时的答案提取率。Y 轴为对数刻度，因此过分强调了较低值的放大。在 $M$ 中，PaLI-3 显示的可提取信息量最少。

5.1 区分记忆和泛化的简单基准

为了确定可提取的答案是否已被有效记忆，与（Carlini等人，2023b；Guo等人，2023）类似，我们引入了一个泛化基线 $f_G$ （与 $f$ 的架构相同）。我们的想法是将可从 $f$ 提取的答案 $E$ 与可从模型 $f_G$ 提取的答案 $G$ 进行比较，后者在训练时从未见过 $\mathcal{D}^C$ （通过将其从训练集 ${ }^1$ 中移除，即 $(\mathcal{D}^{t r}-\mathcal{D}^C)$ ，因此可以通过合法的泛化能力（或机会）提取正确的答案。如果一个答案可以从 $f$ 中提取出来，但不能从 $f_G$ 中提取出来，这表明答案是在训练时记忆下来的，不能简单地从上下文中恢复。因此，我们将可提取的记忆信息量量化为可从 $f$ 中提取但不可从 $f_G$ 中提取的答案量：换言之， $∣ M ∣ = ∣ E - G ∣$

${ }^1$ 注意，从训练集中移除金丝雀集不会产生泛化性能上的差异。

结果：在图 3 中，我们报告了所有考虑模型的 $∣ E ∣ 、 ∣ M ∣$ 和 $∣ G ∣$ 。在图 4 中，我们还报告了被记忆的唯一 PII 的数量。这些 PII 主要代表个人姓名、敏感地点（如旅行目的地）以及门票或产品的序列号。对于 Donut 和 Pix2Struct， $f$ 可提取的大量示例无法通过泛化基线提取，很可能已被记忆。相比之下，在高分辨率下训练的 PaLI-3 中，大多数可提取的答案仅归因于泛化，而非记忆。

PII (Personally Identifiable Information) 和 unique PII 都涉及到个人身份信息，但它们在具体含义和范围上有所不同：

1. PII (Personally Identifiable Information)

PII 是指可以用来识别某个特定个人的任何信息。这些信息可以是直接识别个人的（如姓名、社会安全号码、电子邮件地址），也可以是间接识别个人的（如邮政编码、IP地址、出生日期等）。PII 的范围比较广泛，包含了可能涉及到个人身份的各种数据。
举例:

姓名
电子邮件地址
电话号码
IP地址
生日
社会安全号码（SSN）

2. Unique PII

Unique PII 则是指能够唯一地识别某个个体的信息。换句话说，unique PII 是一种特别的 PII，它在数据库中与特定个体唯一对应，通常没有模糊性或共享性。
举例:

社会安全号码（SSN）——通常是唯一的，没有其他人使用相同的号码。
护照号码
驾驶执照号码
唯一的医疗记录编号

区别

广度 vs. 特异性: PII 包括了所有可以识别个人的信息，而 unique PII 是其中更具唯一性、直接指向某个人的信息。
风险: 虽然所有的 PII 都涉及隐私风险，但 unique PII 通常具有更高的风险，因为它们能够无二义性地识别出某个人。

应用场景

在数据隐私和安全的讨论中，区分 PII 和 unique PII 很重要，因为不同的类型信息可能需要不同的保护级别。例如，某些模型或系统可能能够提取一般的 PII，但不能提取 unique PII，这意味着它们对个人隐私的影响可能有所不同。

请添加图片描述
图 4.当使用 $\left(I^{-a}, Q\right)$ 查询模型时， $M$ 中属于 PII 的样本量，以及属于唯一 PII 的样本量。

如图 4 所示，Donut 和 Pix2Struct 的最高分辨率变体可以提取 PII，尤其是唯一的 PII，但 PaLI- 3 的最高分辨率变体却不能。从这些结果中，我们可以找出对记忆样本量影响较大的两个因素：

训练分辨率：在模型结构固定的情况下，训练模型的分辨率与记忆样本的数量成反比。直观地说，分辨率越低，模型就越难真正从图像中读取答案，而越容易通过记忆最小化损失。例如，当 Donut 的最高分辨率为 $∣ M ∣ = 63$ 时，随着训练分辨率的降低， $∣ M ∣$ 增长到 110,172，而最低训练分辨率则达到了 748 的极高水平。
预训练：通过手动检查泛化基线可提取的样本，我们发现对于 Donut 和 Pix2Struct，这些样本包含高度重复的答案（如页码、表号和图号）或经常重复的组织名称（如 ITC 和 AHA）。对于 PaLI-3，我们观察到，除了为 Donut 和 Pix2Struct 提取的琐碎答案外，泛化基线还能正确回答依赖常识的问题（例如，模棱两可的缩略语的含义，可根据输入文档的主题、化学物质的属性或一般地理概念来解决）。这要归功于网络规模的预训练。 $M$ 中较低的样本量也可能表明，即使在相对较低的训练分辨率下，预训练较好的模型也可能由于其较好的泛化能力而减少对记忆的依赖：事实上，在所有模型中，PaLI- 3 在测试集上的泛化性能最好（87.6 ANLS，而最好的 Pix2Struct 和 Donut 变体分别为 76.6 和 67.5）。

5.2.可提取的记忆和简化得分

由于训练过程的随机性，上一节提出的方法可能会错误地将某些可提取答案识别为记忆答案。为了证明我们的归因技术大多能识别出记忆性样本，我们利用了（Feldman, 2019; Zhang et al.）修改后的记忆性和简单性指标

记忆和简单性得分：让 $\mathcal{A}$ 成为随机训练算法。对于 $\mathcal{D}^C$ 中的每个样本 $\left(I_i,Q_i,a_i\right)$ ，我们希望估算出记忆分数（Feldman, 2019）：
$\begin{aligned} \mathcal{M}\left(\mathcal{A}, \mathcal{D}^{t r}, i\right)= & P_{f \sim \mathcal{A}\left(\mathcal{D}^{t r}\right)}\left[f\left(I_i, Q_i\right)=a_i\right]- \\ & P_{f \sim \mathcal{A}\left(\mathcal{D}^{t r-i}\right)}\left[f\left(I_i, Q_i\right)=a_i\right] \end{aligned}$
其中， $\mathcal{D}^{t r-i}$ 表示从样本 $i$ 中移除的样本 $\mathcal{D}^{t r}$ 。这个分数量化了模型在训练时看到或未看到金丝雀时对其做出正确预测的概率之间的差异。

得分 1 表示模型在训练时看到或未看到金丝雀时对其做出正确预测的概率之间的差异。0 分表示无论样本是否在训练集中，它都有相同的概率做出正确预测。请注意，记忆分数并不代表模型对样本的准确性（例如，总是正确或总是错误的模型都表现出较低的记忆分数）。为了解释这一点（Zhang 等人，2021a）提出了一个简单性得分 $\mathcal{S}\left(\mathcal{A},\mathcal{D}^{t r},i\right)$ ，它是等式（1）中第一项和第二项的总和。这样就可以区分两种情况：一种情况是模型无法记住某个样本，因为即使经过训练也很难回答（低简单性）；另一种情况是即使不经过训练也很容易得出答案（高简单性）。

可提取记忆性和简单性。这两个分数并不能完全反映我们感兴趣的属性：它们告诉我们的是一个模型在输入样本 $(I, Q)$ 上的正确性，而不是给定部分上下文 $\left(I^{-a}, Q\right)$ 来回答问题的能力。因此，我们相应地调整了记忆分数和简单分数，以考虑提取成功的概率：
$\begin{aligned} \mathcal{M}_E\left(\mathcal{A}, \mathcal{D}^{t r}, i\right)= & P_{f \sim \mathcal{A}\left(\mathcal{D}^{t r}\right)}\left[f\left(I_i^{-a_i}, Q_i\right)=a_i\right]- \\ & P_{f \sim \mathcal{A}\left(\mathcal{D}^{t r-i}\right)}\left[f\left(I_i^{-a_i}, Q_i\right)=a_i\right]\end{aligned}$

我们将公式（2）称为可提取记忆得分，并将第一项称为样本内可提取性，将第二项称为样本外可提取性。类似地，我们定义可提取简单性得分 $\mathcal{S}_E\left(\mathcal{A}, \mathcal{D}^{t r}, i\right)$ 为两个项的和。

经验估计。与（Feldman, 2019; Lukasik et al., 2023）类似，我们通过在训练集的随机拆分 $S^k$ 上进行训练，计算出 $\hat{\mathcal{M}}_E$ 和 $\hat{\mathcal{S}}_E$ 的经验估计值，这些训练集随机省略或保留了金丝雀集 $\mathcal{D}^C$ 中的样本。我们总共会产生 $K$ 分割，并将包含样本 $i$ 的分割的索引定义为 $K_{i n}=\left\{k:\left(I_i, Q_i, a_i\right) \in\right.$ $\left.S^k\right\}$ 和 $K_{text {out }}=\left\{k:\left(I_i, Q_i, a_i\right)\notin S^k\right\}$ 。然后，我们计算样本内和样本外的可提取性得分为 $\frac{1}{\left|K_{i n}\right|} \sum_{k \in K_{i n}} \mathbb{1}\left(a_i=f_{S^k}\left(I_i^{-a_i}, Q_i\right)\right)$ 和 $\frac{1}{\left|K_{\text {out }}\right|} \sum_{k \in K_{\text {out }}} \mathbb{1}\left(a_i=f_{S^k}\left(I_i^{-a_i}, Q_i\right)\right)$ 。鉴于基于文档的 VQA 系统的训练成本极高，我们采用了（Carlini 等人，2022 年）中的采样程序，以产生 $K = 50$ 的分片，这样每个金丝雀进入或离开一个分片的次数正好是 25 次。

实验结果在图 5 中，我们绘制了记忆性和简单性得分的二维直方图，即 $\hat{\mathcal{M}}_E$ and $\hat{\mathcal{S}}_E$ 。可以看出，绝大多数样本都是无法提取的，因此我们得到的结果是 $\hat{\mathcal{M}}_E=\hat{\mathcal{S}}_E=0$ 。尽管有一部分训练金丝雀是可以反事实提取的，即 $\hat{\mathcal{M}}_E \gg 0$ 。为了确定第 4.1 节中提出的技术是否真的能识别记忆样本，我们现在绘制了仅可从原始模型 $f$ 提取的样本 $E - G$ 以及可通过泛化基线 $f_G$ 提取的 "对照 "样本 $G$ 的可提取记忆和简化得分。不出所料， $G$ 中的样本具有较低的记忆分数 $\hat{\mathcal{M}}_E$ ：无论我们是否对其进行训练，这些答案都能被提取出来。相比之下， $E - G$ 中的样本的记忆分数为 $\hat{\mathcal{M}}_E$ ，介于 0 和 1 之间。大多数样本都接近 $\hat{\mathcal{S}}_E=\hat{\mathcal{M}}_E$ 这条直线，这表明样本内可提取性是影响 $\hat{\mathcal{M}}_E$ 的唯一因素（也就是说，模型必须在训练时看到样本才能提取它，而不能仅仅因为泛化而提取它）。
请添加图片描述

图 5 .在 Pix2Struct base 1M Pixels（左侧三幅图）和 Donut $2560 \times 1920$ （右侧三幅图）中，所有金丝雀， $E - G$ 和 $G$ 的 $\hat{\mathcal{M}}_E$ 和 $\hat{\mathcal{S}}_E$ 分数分布。 $E - G$ 中的样本具有较高的记忆分数，而 $G$ 中的样本则没有。

2D histograms（二维直方图）是一种用于展示和分析两个变量之间分布关系的图表。它可以帮助可视化数据在二维空间中的密度或频率分布。

详细说明

直方图: 在单变量的情况下，直方图是一种显示数据分布的图表，通过将数据分成若干个区间（称为“bin”），然后统计每个区间内数据的数量（频率），并以柱状图形式显示。
二维直方图: 在二维直方图中，数据被分成二维的“bin”网格，横轴和纵轴分别表示两个变量的值范围。每个网格中的颜色或高度表示该网格内数据点的数量或密度。

应用场景

二维直方图被用于显示 memorization scores（记忆分数， $(\hat{\mathcal{M}}_E)$ ）和 simplicity scores（简洁度分数， $(\hat{\mathcal{S}}_E)$ ）之间的关系。通过这种可视化方式，你可以直观地看到：

分布密度: 数据点在哪些区域集中出现，即哪些组合的 $\hat{\mathcal{M}}_E$ 和 $\hat{\mathcal{S}}_E$ 值更常见。
相关性: $\hat{\mathcal{M}}_E$ 和 $\hat{\mathcal{S}}_E$ 之间是否存在相关性，或者它们之间的分布是否有特定的模式。

举例

假设你有两个变量 $X$ 和 $Y$ ：

$X$ 是记忆分数 $\hat{\mathcal{M}}_E$ 。
$Y$ 是简洁度分数 $\hat{\mathcal{S}}_E$ 。
你可以用二维直方图来显示这两个变量的联合分布：
横轴显示 $X$ 的值，纵轴显示 $Y$ 的值。
每个网格的颜色或高度表示该区域内数据点的数量。
通过观察图表，你可以发现哪些组合的 $\hat{\mathcal{M}}_E$ 和 $\hat{\mathcal{S}}_E$ 更常见，以及它们的分布模式。

总结

二维直方图是一种有助于理解两个变量之间关系的可视化工具，尤其适用于分析数据的密度分布和变量间的相关性。在你的案例中，它被用来分析记忆分数和简洁度分数之间的关系，以及评估不同样本的可提取性。

6. 提取的消融

到目前为止，我们研究的是假设知道输入的所有其他部分的答案 $a$ 的可提取性。现在，我们放宽了这一假设，以便进一步了解影响可提取性的因素，并在某些情况下模拟更现实的攻击场景，在这种场景中，我们无法完全了解上下文 $\left(I^{-a},Q\right)$ 。事实上，虽然在很多情况下完全了解上下文是不可能的，但攻击者有可能制作出上下文的近似值（例如，因为他们所寻求的信息包含在具有已知或固定结构的文档中，如驾驶执照或在线表格）。

在深入研究结果之前，我们要指出的是，就像修改 LLM 的提示方式会显著改变其输出一样，改变 VLM 的提示方式也会改变哪些样本可以提取。因此，在少数情况下，可提取样本的数量可能会比我们目前考虑的基线方案有所增加，尤其是在泛化基线因上下文近似所含信息减少而被削弱的情况下。

6.1 图像中无文字

对于 LLMs，先前的研究表明，用记忆字符串的前缀提示模型是提取数据的可靠方法（Carlini 等人，2023b；Tirumala 等人，2022）。然而，对于基于文档的 VQA 系统来说，还不清楚模型是否真的需要阅读文档中的任何周边文本才能回忆起答案。因此，我们研究了从图像 $I$ 中删除所有文本的情况。如果模型仍能做出正确回答，则表明模型是依靠问题和非文本特征（如布局、图标或图像的存在等）来回想答案的。本实验也代表了一种实际的威胁模型，即攻击者知道文件的布局（例如，因为它是网上提供的表格或具有固定结构的文件，如驾驶执照或身份证），但对其内容知之甚少或一无所知。

结果图 6 显示，在 Donut 和 Pix2Struct 中，如果图像中没有文字，模型返回正确答案的能力就会大大降低。就 Donut 而言， $M$ 中的样本量为 26 个。Pix 2 Struct 的样本量也从 94 个减少到 27 个。返回的 PII 数量也明显减少，其中大部分是高度重复的 PII（超过 6 次）。在 PaLI-3 中，我们还观察到该模型对需要常识的答案（例如，根据问题中包含的化学物质符号得出其名称，文件中包含的图片中描绘的动物物种名称）做出了正确的响应。可提取答案数量的增加可能与以下事实有关：当提取失败时，典型的模式是模型阅读文档的另一部分。在没有文本的情况下，模型更容易从预先训练时获得的常识中检索信息。对于 PaLI-3，没有提取 PII。

请添加图片描述

图 6.当上下文不包含文本（无文本）、问题被转述（转述）或与图像无关但模型仍能正确回答（洗牌）、图像发生旋转（R5* 和 R10*）、平移（T20px、T100px）以及亮度发生乘法因子变化( $\mathrm{B} \times 2,1.3,0.8$ 或 0.5 ) 时的答案提取率。深色表示可提取的 PII 样本的数量。Y 轴为对数刻度。在所有可部署模型中，PaLI- 3 的可提取信息量最低。

依赖周边文本：文档中没有任何文本会大大降低提取独特 PII 的能力。

6.2 对训练问题的不完全了解

为了了解该模型是否记住了准确问题 $Q$ 和答案 $a$ 之间的关联，我们测量了当问题被转述时我们能否提取出答案。我们创建了 $Q$ 的解析词 $Q^{\prime}$ ，并使用 $\left(I^{-a},Q^{\prime}\right)$ 提取答案。为此，我们使用 PaLM2（Anil 等人，2023 年）为每个金丝雀问题创建一个解析问题。下面是一个解析问题的例子：如果问题 $Q$ 是 “文档中显示的地址是什么？”，那么解析问题 $Q^{\prime}$ 可以是 "文档中显示的街道名称和城市是什么？这个实验也反映了攻击者不知道训练问题 $Q$ 的准确措辞，而用自己的话来近似的情况。

实验结果图 6 显示，提取的答案数量显著下降，但仍不可忽略。对于 Pix2Struct 和 Donut，我们发现都可以提取出一些独特的 PII（如个人姓名、机票序列号和旅行目的地）。在 PaLI-3 中，可提取性有所增加，但同样与常识性问题有关，没有显示任何 PII。

对 $Q$ 解析的鲁棒性：查询 PII 的问题的确切措辞的不确定性不会阻止敏感信息的提取，但会减少可提取样本的数量。

6.3.对图像扰动的鲁棒性

攻击者可能会制作一份与最初用于训练的文档相似的文档，但扫描过程自然会产生一些微小的视觉差异，这些差异可能会影响答案的可提取性（例如亮度变化、微小的旋转或平移）。因此，我们考虑对原始上下文 $I^{-a}$ 进行增强扰动，以反映训练文档扫描与逆向制作文档扫描之间可能产生的合理差异。为此，我们考虑了以下增强：1）亮度变化：我们增加（1.3倍，2倍）或减少（0.8倍，0.5倍）文件的亮度；2）小幅旋转：我们随机旋转5或10度；3）小幅平移：我们随机将图像沿两个轴移动20和100像素。

结果：在图 6 中，我们可以看到亮度变化确实会减少可提取的信息量，但可提取的样本量仍然很高。在大多数情况下，亮度变化越大，可提取的答案就越少。不过，仍有相当数量的样本可以提取，尤其是在前几节考虑的上下文扰动情况下。旋转或平移图像对答案的可提取性有更大的负面影响，这表明空间信息比亮度信息对可提取性起着更重要的作用。请注意，图像扰动下的可提取样本量明显大于问题解析时的可提取量，这表明对于提取攻击来说，精确了解问题 $Q$ 比精确了解原始扫描 $I^{-a}$ 更为重要。这也表明，与输入图像 $I^{-a}$ 相比，在存在训练问题的情况下更有可能触发提取。

对图像扰动的鲁棒性可提取样本的数量对亮度扰动的鲁棒性相对较高，而对空间变换的鲁棒性较低。对手无需复制原始训练图像的完美副本即可提取答案。

6.4.重排模式

基于文档的 VQA 系统包含视觉组件和语言组件，每个组件都根据训练数据进行微调。已有大量证据表明，这两个部分都能单独记忆训练数据（Feldman，2019；Lukasik 等人，2023；Carlini 等人，2022；2019）。因此，一个有趣的问题是，多模态模型是否有可能独立于两种输入模态之一来提取答案。为此，我们考虑了两个实验，随机调整两种输入模式之间的关系。

仅基于问题的可提取性。在推理时，我们向模型输入一张带有无关问题 $\left(I_j^{-a_j}, Q_i\right)$ 的部分图像，其中 $\neq j$ ，并且没有将问题 $Q_i$ 应用于图像 $I_j$ 的训练样本，问题 $Q_i$ 的正确答案也没有出现在图像 $I_j$ 的文本中。本实验评估了模型仅根据问题做出反应的能力，并反映了攻击者完全不知道图像 $I_i$ 的情况。 ${ }^2$

结果：在试图提取原始答案 $a_i$ 的情况下（如图 6 中洗牌一栏所示），我们只能提取出 Donut 的 4 个答案和 Pix 2 Struct 的 21 个答案。在 $M$ 中的所有样本中，我们还可以找到一些包含地区代码、个人姓名和文件签发日期的敏感样本。这些敏感样本在模型的训练集中也只重复出现一次或最多两次。虽然可以为 PaLI-3 提取 2 个答案，但没有提取任何 PII。

$}^2 \mathrm{We}$ 我们还尝试将输入图像的强度值恒定为黑色、白色或 $I_i$ 的平均值。在这种情况下无法提取答案，也许是因为这种图像过于分散。

仅基于图像的可提取性。与之前的实验一样，我们为模型提供了部分输入图像和一个不相关的问题，该问题在图像中不包含答案。然后，我们测量是否能提取出训练时针对该图像所提问题之一的答案。在这种情况下，我们没有发现可提取的答案，这表明问题在提取过程中起到了更主要的作用。

可提取性对模式的依赖性在少数情况下，模型可以单独利用语言组件来提取敏感答案。如果训练答案不存在于图像模式中，而且在特定文档的训练过程中没有看到问题，那么仅凭图像不足以提取任何记忆答案。

6. 防御

为了结束我们的研究，我们考虑了各种缓解策略，并测量了它们对模型的记忆和泛化能力的影响（通过在一个保持不变的测试集上计算 ANLS（Mathew 等人，2021 年））：

推理时间释义(ITP)，类似于(Somepalli et al.,2023a)，我们认为它是一种有效的防御策略。
预置/添加随机字符串（PR/AR）受(Somepalli et al.,2023a)的启发，我们通过在问题前添加或附加一个短的6位数随机字符串来干扰问题。
提取阻断（EB）对于每个原始样本 $(I, Q, a)$ ，我们建议在训练集中添加一个相应的样本（ $I^{-a}, Q,^{\prime}$ ANSWER NOT PRESENT’）。这种方法与（Chen et al., 2020）中为改善 VQA 系统的基础而提出的算法 V-CSS 部分背后的直觉精神相似。

结果：我们注意到，虽然 ITP 和 PR/AR 可以减少可提取信息的数量，但它们也会导致在保留验证集上的 ANLS 大幅下降。因此，只有当实践者愿意在性能方面付出代价时，才能将它们作为缓解策略加以实施。另一方面，我们发现 EB 非常有效，大多数模型的可提取样本量都降到了 0。此外，尽管我们通过使用上下文 $\left(I^{-a}, Q\right)$ 来增强原始训练集来应用该技术，但它也适用于使用第 5 节中所考虑的方法来查询模型的对手（见表 2），同时还能提高 ANLS（与（陈等人，2020 年）中 V-CSS 的做法类似）。
请添加图片描述
表 1.与标准训练程序相比，各种对策的 ANLS（DocVQA 的效用指标）和 $M$ 中可提取样本量的变化。

ANLS (Average Normalized Levenshtein Similarity) 是一种用于评估模型生成文本质量的指标，特别是在图像文本识别（OCR）和问答系统（VQA）中。它衡量生成的文本与参考文本之间的相似性。

详细说明

Levenshtein Similarity: Levenshtein 相似性基于 Levenshtein 距离（也称为编辑距离），即通过插入、删除或替换操作将一个字符串转换为另一个字符串所需的最小操作次数。相似性得分通常是通过将这种距离标准化为相似度得分（通常介于 0 和 1 之间，1 表示完全匹配）。
Normalized: 在 ANLS 中，Levenshtein 距离通常会根据字符串长度进行标准化，以确保不同长度的字符串可以合理地进行比较。
Average: ANLS 是针对多个测试样本的平均得分，它反映了模型在整个数据集上的整体表现。

举例

假设你有一个 VQA 系统，你输入问题并得到模型的回答。ANLS 将计算模型生成的回答与正确答案之间的 Levenshtein 相似性得分，然后对整个测试集取平均值。这有助于评估模型生成的答案与预期答案之间的匹配程度。

应用场景

在你提供的研究中，ANLS 被用来评估不同缓解策略对模型性能的影响。例如，尽管一些策略可以减少模型记忆和泄露信息的风险，但它们可能也会降低 ANLS 分数，表明这些策略降低了模型生成正确答案的能力。
总结来说，ANLS 是衡量模型生成文本与参考文本相似性的指标，特别适用于评估 OCR 和 VQA 系统的性能。

7.结论

在本研究中，我们分析了三种最新的基于文档的 VQA 系统的记忆能力。我们已经证明，这些模型可以记忆训练集中唯一或零星重复的信息，而且当模型被提示不完整的上下文时，这些信息也可以被提取出来。我们引入了反事实记忆和简单性分数的扩展，揭示了我们的归因方法所识别的记忆信息确实也是根据这些计算成本更高的分数记忆的。我们分析了上下文对样本可提取性的影响，并研究了几种启发式技术的有效性，其中一种技术可减少可提取样本的数量并提高测试性能。

附录 A 训练的计算成本

Donut 在最大输入分辨率下微调 Donut 需要 64 个 A100 GPU，需要一天的时间。考虑到 Donut 相对紧凑的尺寸（176 M 个参数），它可以在高分辨率的输入图像上（2560 ÷times 1920 ÷approx 5 ÷mathrm{M}$ 像素）进行训练，这是实现最佳性能的一个关键方面。降低分辨率可以大大降低训练成本，但正如我们所观察到的，这会增加模型记忆训练数据的倾向，降低模型的泛化能力。因此，我们不建议降低分辨率。

Pix2Struct 微调 Pix2Struct Base（与分辨率无关）需要 32 TPUv2 大约 5 个小时。训练 Pix2Struct Large（与分辨率无关）需要 64 TPUv2 大约 5 个小时。由于尺寸相对较大，较小模型的微调分辨率约为 120 万美元像素，而较大模型的微调分辨率约为 80 万美元像素。

PaLI-3 微调 PaLI-3 64 TPUv2 15 小时。由于其大小（5B 个参数），其微调分辨率通常约为 110 万美元像素（1064 乘以 1064）。

计算记忆分数 计算量需要乘以每次测量的运行次数：对于我们考虑的最简单归因方法，我们只需要运行 2 次；而对于反事实提取记忆分数和简单分数，我们需要运行 50 次。对于我们所考虑的最大模型的存储来说，执行更多的运行既耗费计算量，又非常昂贵。

附录 B.进一步结果

EB对训练集中未使用的提示策略的有效性 在第5节中，我们考虑了几种提示模型的方法。由于 EB 只包含使用最坏情况下的提示策略 $\left(I^{-a}, Q\right)$ 的样本，因此我们很自然地会想，如果对手用不同的方式提示模型，EB 是否仍然有效。我们观察到这种技术实际上仍然非常有效，见表 2
请添加图片描述

表 2.图 4 中各种语境下的提取阻断效果。请注意，我们在本表中考虑的任何语境都不包括在训练集中。这表明，"提取阻断 "提供的保护超出了训练时提供的语境类型。

附录 C 金丝雀的 PII 类别及其频率

我们将金丝雀集中的每个答案手动标注为 PII 或非 PII。我们还将每个 PII 元素划分为以下类别之一：地点、人物、时间、联系人（电话/传真/电子邮件）、NRP（国籍宗教政治）、URL 和其他形式的 ID（如卡号、车票序列号、文件或人的数字标识符等）。图 7 报告了 PII 在金丝雀集 $\mathcal{D}^C$ 中的分布情况。
请添加图片描述

附录 D. 其他相关工作

D.1.基于文档的可视化问题解答

由于将文档阅读和文档理解的任务分离开来更容易解决视觉问题解答问题，依赖 OCR 的系统几年来一直处于技术领先地位（Tito 等人，2022 年；Huang 等人，2022 年）。然而，正如（Kim 等人，2022 年）所指出的，依赖 OCR 的系统有一个缺点，即需要昂贵的 OCR 预处理步骤，在需要高质量 OCR 结果的情况下，推理成本会更高，OCR 系统的错误会传播到 VQA 组件。这种现象在具有复杂字符集的语言中尤为明显，需要昂贵的 OCR 后校正模块（Rijhwani 等人，2020；Schaefer & Neudecker，2020）。由于这些原因，像（Kim 等人，2022 年；Lee 等人，2023 年）这样的无 OCR 系统受到越来越多的关注，像 PALI-3 （Chen 等人，2023 年 b）这样的先进模型缩小了依赖 OCR 和无 OCR 模型之间的性能差距。在这项工作中，我们主要关注三个最先进的无 OCR 系统，它们在模型大小、架构和预训练阶段上各不相同。我们将 Donut（Kim 等人，2022 年）和 Pix2Struct（Lee 等人，2023 年）视为专门执行文档理解的模型集。我们还考虑了 PALI-3（Chen 等人，2023b），它是一种基础视觉语言模型，可以进行微调以解决文档理解任务，并达到最先进的性能。

D.2.与 VQA 中分布式捷径学习的关系

众所周知，VQA 系统由于能够学习和利用特定答案与某些问题的频繁关联（语言快捷方式），因此能够产生正确的回答（Jabri 等人，2016 年；Niu 等人，2021 年；Goyal 等人，2017 年；Chen 等人，2020 年）。例如，如果问题是 “草是什么颜色的？”，如果草在大多数训练图像中都是绿色的，模型就会回答绿色，而与测试图像中的实际颜色无关。这类捷径不一定完全是语言上的，也可能涉及输入图像中元素的频繁共现（视觉捷径）或它们与问题中特定词语的组合（多模态捷径）（Dancette 等人，2021 年；Si 等人，2022 年）。换句话说，VQA 系统可以依靠多个样本中共同出现的虚假但具有预测性的特征来学习简单的规则，以便在输入图像缺乏所考虑的信息或与之相矛盾时也能做出准确的反应。

Tito 等人，2023 年）的研究表明，基于文档的视觉问题解答也会出现这种现象。作者提出了一个新的联合学习数据集，其中包含来自多个数据提供商的发票。由于提供商的信息（特别是其名称和电子邮件地址）在具有视觉和语言相似性（如相同的布局、格式、徽标、字段等）的几张发票上重复出现，因此模型可以根据已知提供商先前未见过的测试文档正确推断出提供商的名称或电子邮件地址，而这些文档并不包含所要求的信息。与此相反，我们侧重于集中训练，并对训练文档进行攻击。我们的分析旨在排除模型利用从其他样本中学到的知识来提取信息的情况（我们认为这是一种泛化而不是记忆）。他们的目标是保护提供者的身份（在联合、群体隐私设置中），而我们的目标是保护个人答案。