【论文阅读】The Secret Revealer: Generative Model-Inversion Attacks Against Deep Neural Networks模型反转攻击

努力努力不秃头！

已于 2024-06-15 17:43:51 修改

阅读量1.1k

点赞数 14

分类专栏：推理攻击文章标签： dnn 深度学习人工智能神经网络计算机视觉 gan 网络攻击模型

于 2024-05-25 22:42:16 首次发布

本文链接：https://blog.csdn.net/weixin_49946504/article/details/139204943

版权

7 篇文章 0 订阅

订阅专栏

最近要看一些推理攻击的内容，把看过的都放过来吧
The Secret Revealer: Generative Model-Inversion Attacks Against Deep Neural Networks
深度神经网络的生成模型反转攻击
CVPR 2020

一、论文信息

The Secret Revealer: Generative Model-Inversion Attacks Against Deep Neural Networks
揭秘：针对深度神经网络的生成模型反转攻击
在这里插入图片描述

Yuheng Zhang , Ruoxi Jia , Hengzhi Pei1, Wenxiao Wang, Bo Li, Dawn Song
复旦大学，加州大学伯克利分校，清华大学

model-inversion, GAN

生成的模型可能会通过其输出（即黑盒攻击）或参数（即白盒攻击）无意中泄漏有关训练数据的信息
隐私攻击的一个具体例子是模型反转（MI）攻击，其目的是通过利用训练数据与模型输出的相关性来重建训练数据的敏感特征
是否有可能对 DNN 发起攻击并重建其私有训练数据仍然是一个悬而未决的问题：
- 对DNN来说，即使只有一个隐藏层，相应的攻击优化也变成了一个非凸问题
- 通过梯度下降方法很容易陷入局部极小值，从而导致攻击性能不佳
- 此外，在目标模型为DNN的攻击场景中（例如，攻击人脸识别模型），要恢复的敏感特征（人脸图像）往往位于高维、连续的数据空间中，在没有任何约束的情况下直接在高维空间上进行优化可能会生成缺乏语义信息的不切实际的特征
上述应对方法都有或多或少的缺点，基于此进行改进

在这里插入图片描述

将受到攻击的模型称为目标网络。重点关注白盒设置，假设对手有权访问目标网络并采用某种推理技术来发现与特定标签关联的特征。对手还可能获得一些有助于他/她推理的辅助知识。目标是根据目标分类器参数恢复某些特定身份的人脸图像
- 可能的辅助知识可以是仅包含非敏感信息的损坏图像，例如面部图像中的背景像素或模糊图像，因为模糊和腐败通常用于保护公共数据集中个人的匿名性这种辅助知识可能很容易获得有先验
- 与图像修复的连接利用了图像修复工作中的一些训练策略，并显着提高了重建图像的真实感是否可以稍微修复一下数据呢

利用生成对抗网络(GAN)来重建图像中缺失的敏感区域，使用了使用公开数据进行训练的生成器G和判别器D，找到一个潜在向量ẑ,使其在目标网络下具有最高的似然概率，以补充敏感地方，优化了LOSS函数
- 知识蒸馏：我们在公开数据集上训练生成器G和判别器D,鼓励生成器生成逼真的图像，使用的公开数据集可以是无标签的,并且与私有数据集没有身份重叠
- 秘密揭示: 利用第一阶段训练得到的生成器G,解决一个优化问题,从而恢复图像中缺失或敏感的区域

MNIST、ChestX-ray8、CelebA

关注