GPT-2隐私泄露论文阅读：Extracting Training Data from Large Language Models

原创

已于 2023-03-18 16:37:02 修改 · 3.9k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#论文阅读 #人工智能 #深度学习

于 2023-03-18 16:33:19 首次发布

文章揭示了大型语言模型如GPT-2会记住训练数据中的文本片段，导致隐私泄露。通过采样和排序策略，攻击者可以提取出原始训练数据，包括敏感信息。论文提出了防御措施，如差分隐私和数据去重，但强调了隐私保护的挑战。

文章目录

论文地址:
原文阐释：
渔樵问对：

论文地址:

Carlini, N., Tramèr, F., Wallace, E., Jagielski, M., Herbert-Voss, A., Lee, K., Roberts, A., Brown, T., Song, D., Erlingsson, Ú. and Oprea, A. (2021). Extracting Training Data from Large Language Models. In 30th {USENIX} Security Symposium ({USENIX} Security 21), pages 181–198.

这篇文章也可以在以下网址找到：

https://arxiv.org/abs/2012.07805

https://www.usenix.org/conference/usenixsecurity21/presentation/carlini-extracting

https://arxiv.org/pdf/2012.07805v2

这篇文章的主要观点可以总结为以下大纲：

介绍了一种从大型语言模型中提取训练数据的攻击方法，该方法只需要黑盒查询模型，而不需要访问其参数或架构。
在GPT-2模型上进行了实验，证明了攻击的可行性和有效性，以及不同的采样策略和排序指标对攻击效果的影响。
分析了模型大小、字符串频率、数据集复杂度等因素对记忆化程度的影响，并发现大型语言模型会记忆并泄露其训练数据中出现过的任意文本序列。
讨论了可能的防护措施和建议，如使用差分隐私技术、消除重复文件、限制查询次数等，以减少隐私泄露风险。
注：GPT-2中的数据现已公开，因此我们使用它来进行实验，没有版权风险。

原文阐释：

你知道吗？你使用过或者正在使用的那些大型语言模型（LM），可能会泄露它们训练时所用到的数据，甚至是一些敏感或私密的信息。这就是最近一篇论文揭露的惊人事实。在这篇博客中，我将为你简要介绍这篇论文的内容和贡献，以及它对我们使用语言模型的影响和启示。

什么是大型语言模型？简单来说，就是用神经网络来学习和生成自然语言的模型。这些模型通常有数十亿甚至数千亿个参数，并且需要在海量的文本数据上进行训练。例如，GPT-2就是一个有15亿个参数的语言模型，它可以根据给定的前缀生成流畅且有意义的文本。这些模型不仅可以用于自然语言生成，还可以用于各种其他任务，如机器翻译、问答、摘要等。

那么，这些模型为什么会泄露训练数据呢？原因在于它们会记住或者说“背诵”一些训练数据中出现过的文本片段，并在生成时重复输出。这种现象被称为“训练数据提取攻击”（training data extraction attack）。论文作者提出了一种简单而有效的方法来实施这种攻击，并在GPT-2上进行了验证。

具体来说，攻击方法分为两个步骤：

从目标模型中采样大量高概率的样本。采样方法有三种：随机采样（random sampling）、最佳采样（best sampling）和拓扑排序采样（topological sorting sampling）。随机采样就是按照目标模型给出的概率分布随机选择下一个词；最佳采样就是每次选择概率最高的那个词；拓扑排序采样则是利用了一个事实：如果一个序列被目标模型记住了，那么它应该比任何对它进行置换后得到的序列更有可能被生成。因此，采样时可以对所有可能的词进行拓扑排序，然后按照顺序选择一个词，直到得到一个完整的序列。
对采样得到的样本进行排序，选出最有可能是训练数据中出现过的那些。排序方法有六种：交叉熵（cross-entropy）、概率比（probability ratio）、概率差（probability difference）、概率积（probability product）、概率和（probability sum）和最大概率（maximum probability）。这些方法都是基于一个参考模型来对目标模型生成的样本进行评估。参考模型可以是另一个语言模型，也可以是一些简单的统计模型，如n-gram或TF-IDF。排序方法的核心思想是：如果一个样本在目标模型中比在参考模型中有更高的概率，那么它就更有可能是目标模型记住了的训练数据。

论文作者在GPT-2上进行了实验，并使用了WebText数据集作为训练数据来源。他们发现，在最好的攻击配置下，67%的候选样本都是训练数据中出现过的文本片段。这些片段包括一些敏感或私密的信息，如个人姓名、地址、电话、邮箱等。他们还分析了不同因素对攻击效果的影响，发现更大的模型、更罕见的词都更容易被提取出来。他们还讨论了一些可能的防御措施，如使用差分隐私训练、去重文档等，但也指出这些方法都有一定的局限性和代价。

结论：本文展示了一种简单有效的方法，可以从大型语言模型中提取出训练数据中的文本片段。这种攻击对于任何语言模型都适用，包括那些使用敏感或非公开数据训练的模型。这种攻击表明，大型语言模型存在严重的隐私泄露风险，需要采取更多的预防措施来保护训练数据。

渔樵问对：

1、通读全文，这篇文章主要讲述了什么内容？

这篇文章主要讲述了以下内容：

大型语言模型（LMs）在训练过程中会记忆并泄露其训练数据中的个别样本
提出了一种简单有效的方法，通过黑盒查询来从语言模型中提取原文序列
在GPT-2模型上进行了实验，证实了提取攻击的可行性和影响因素
讨论了可能的防护措施和建议，以减少隐私泄露风险

根据网页内容，这一步是指从语言模型中提取原文序列的方法，该方法由Carlini等人在2021年发表的论文《从大型语言模型中提取训练数据》中提出。根据网页搜索结果，这一步具体是如何实现的，可以参考以下几点：

该方法首先生成一组大量、多样的高概率样本，使用三种通用的采样策略之一。
然后，该方法使用六种不同的度量标准，利用一个单独的参考模型（例如另一个语言模型）来估计每个样本的概率，并对样本进行排序，将两个模型之间概率比异常高的样本排在最前面¹。
最后，该方法检查排序后的样本是否与训练数据中的某个原文序列完全相同。

原理梗概

这种隐私泄露通常与过度拟合相关[75]-当模型的训练误差显著低于其测试误差时，因为过度拟合通常表明模型已经从其训练集中记住了示例。事实上，过度拟合是隐私泄露的充分条件[72]，许多攻击通过利用过度拟合来工作[65]。

预防策略

最后，我们讨论了许多切实可行的策略
减轻隐私泄露。例如，差异隐私
培训[1]理论上是有充分依据的
如果以适当的记录应用，则生成私人模型
但这可能会导致更长的训练时间
降低效用。我们还提出建议，例如
仔细地消除重复文件，这将有助于经验
以减轻记忆，但不能防止所有攻击。

隐私策略

最小化训练数据记忆的一种方法是应用差异专用训练技术[1，9，43，60，64]。不幸的是，具有差异化私有机制的训练模型通常会降低准确性[34]，因为这会导致模型无法捕获数据长度的细节信息。

论文第二部分Background & related work介绍了大型神经网络语言模型（LMs）和数据隐私攻击的相关背景和工作。作者首先介绍了语言模型的定义、训练目标、生成文本的方法，以及当前最先进的语言模型使用的Transformer架构。然后，作者回顾了一些针对机器学习模型的数据隐私攻击，包括成员推断攻击、属性推断攻击、模型逆向工程攻击等，并指出这些攻击通常需要利用模型的过拟合现象。作者认为，由于大型语言模型通常在庞大的数据集上训练，不会出现明显的过拟合，因此人们普遍认为这些模型不会泄露其训练数据。但是，作者提出了一个新颖的提取攻击方法，可以从大型语言模型中恢复其训练数据中的原始文本序列，即使这些序列只在一个文档中出现过。作者还比较了不同的采样策略和排序指标对提取攻击效果的影响，并分析了模型大小和字符串频率等因素对记忆化程度的影响。

这个新颖的攻击方式是什么？

这个新颖的攻击方法是：

首先，使用三种通用的采样策略之一，从语言模型中生成一组大量的、多样的、高似然度的样本。
然后，使用另一个参考模型（例如另一个语言模型）来估计每个样本的似然度，并使用六种不同的指标之一来对每个样本进行排序，最高排名的是两个模型之间似然度比异常高的样本。
最后，检查候选样本是否与语言模型的训练数据中的某个文档完全一致。

这种方法可以从语言模型中提取出训练数据中出现过的原始文本序列，包括敏感信息和唯一标识符。

攻击目标。我们选择GPT-2[54]作为我们攻击的代表性LMT研究。GPT-2几乎是一个完美的目标。
首先，从伦理角度来看，模型和数据是公开的，因此我们提取的任何记忆数据都是公开的。5其次，从研究角度来看，数据集（尽管是从公开来源收集的）实际上从未被OpenAI发布过。因此，我们不可能无意中“欺骗”并开发利用GPT-2训练数据集知识的攻击。

三种典型采样策略：

这三种策略分别是：

随机采样：从模型中随机生成一些高概率的序列。
前缀采样：从模型中生成一些以特定前缀开头的高概率序列。
后缀采样：从模型中生成一些以特定后缀结尾的高概率序列。
这些策略都可以用来产生候选的记忆化样本，然后用不同的度量方法进行排序和过滤。

隐私风险

对数据提取带来的隐私风险的更广泛的看法源于数据隐私作为上下文完整性的框架[48]。也就是说，如果数据存储导致数据在其预期上下文之外使用，则数据存储是一种边缘隐私。图1显示了一个违反上下文完整性的示例。该个人的姓名、地址、电子邮件和电话号码并非秘密，它们在特定的预期用途（作为软件项目的联系信息）中在线共享，而是由LM在单独的上下文中复制。
由于此类故障，使用LMsman的面向用户的应用程序会在不适当的上下文中故意发出数据，例如，对话系统可能会响应另一用户的查询发出用户的电话号码。

文章第5页第二段中提到的 memorized training exam ple 是什么意思

memorized training example 是指机器学习模型在训练过程中对特定的训练样本过度拟合，从而能够完全复现出这些样本的情况。这种现象可能会导致模型泄露训练数据的隐私信息，也可能会影响模型的泛化能力。文章第5页第二段中提到的 memorized training example 就是作者用一种简单有效的方法从语言模型中提取出来的原始训练数据片段。

ThreatModel &Ethics

论文的第三部分ThreatModel &Ethics讨论了敌手如何只使用黑盒查询访问从大型语言模型中提取训练数据。它还考虑了这种攻击的道德影响以及如何缓解它。以下是中文摘要：

攻击者的目标是找到语言模型训练集中的原始文本序列，例如个人信息、代码或对话。
攻击者可以使用三种通用的采样策略之一从模型中生成大量多样的候选样本，然后使用另一个参考模型（例如另一个语言模型）对每个样本进行排序，选择在两个模型之间具有异常高似然比的样本。
作者在GPT-2模型上进行了实验，发现了600多个与训练数据完全一致的样本，其中一些包含敏感信息，例如姓名、地址、电子邮件等。
作者分析了影响攻击成功的因素，发现更大的模型更容易泄露信息，而不同的攻击配置会改变提取数据的类型。
作者讨论了减少隐私泄露的可能方法，例如差分隐私训练、仔细去重文档、限制查询次数等，但也指出了这些方法的局限性和挑战。

论文第4部分介绍了一种基于语言模型的训练数据提取攻击方法，主要包括以下几个步骤：

首先，使用语言模型生成大量的文本样本，以期找到模型认为“高度可能”的序列，这些序列可能对应于训练数据中的原始文本。具体地，每次试验使用top-n策略从模型中自回归地采样256个token，其中n=40。
其次，给定一组模型生成的样本，将训练数据提取问题归约为成员推断问题：预测每个样本是否存在于训练数据中。最简单的成员推断攻击方法是利用模型倾向于给训练数据中的样本分配更高概率的观察结果，因此一个可能具有高精度的成员推断分类器是简单地选择模型分配最高概率的样本。
最后，使用不同的参考模型来评估每个样本在目标语言模型和参考模型之间的概率比值，并根据该比值对样本进行排序。