【论文阅读】Unstoppable Attack: Label-Only Model Inversion无条件攻击：基于条件扩散模型的只有标签模型反演_unstoppable attack: label-only model inversion via-CSDN博客

本文链接：https://blog.csdn.net/weixin_49946504/article/details/139218308

最近要看一些推理攻击的内容，把看过的都放过来吧
Unstoppable Attack: Label-Only Model Inversion
无条件攻击：基于条件扩散模型的只有标签模型反演
TIFS 2024

一、论文信息

Unstoppable Attack: Label-Only Model Inversion
无条件攻击：基于条件扩散模型的只有标签模型反演
在这里插入图片描述

Rongke Liu , Dong Wang , Yizhi Ren , Zhen Wang , Kaitian Guo, Qianqian Qin, and Xiaolei Liu
杭电

Model inversion attacks, diffusion model, deep learning security and privacy, generative model-based attack model.

MIA专注于恢复与私有数据本身非常相似的数据
白盒：为了在CNN上获得更多语义和有意义的图像，最先进的方法通过将噪声向量馈送到用辅助数据集训练的GAN网中的生成器来生成图像，优化转向噪声向量和生成器
现有的黑盒攻击是通过SGD来优化生成器，以最小化生成图像和辅助图像之间的像素损失。所生成的图像由上述生成器基于目标模型对辅助数据的预测来产生。基于黑盒模型输出的置信度或标签，攻击可以分为：
- 数据重构：基于目标模型预测置信度向量来恢复输入样本
- 训练类推理：基于独热向量或标签来恢复目标代表性样本
文章研究的是纯标签场景，属于训练类推理。目前研究产生理想的生成结果主要集中在白盒场景。实际中，模型通常作为黑盒访问，仅输出预测的标签，可以防止白盒攻击中的生成器在梯度的帮助下进行优化
指出了一些现有黑盒攻击的缺陷：
- 生成的图像多为灰度，无法准确判断目标的肤色或瞳孔颜色等颜色特征
- 目前没有可以在仅标签场景中进行最佳训练的攻击模型，现有方法必须通过基于GAN的生成器设计额外的优化策略来达到攻击目标
- 只能为目标标签生成单个样本
- 基于生成器的目标标签的生成结果是次优的，并且评估指标缺乏全面性

开发了一种新的标签模型反转攻击方法来解决上述限制。核心是训练一个由目标模型预测标签引导的条件扩散模型（CDM），在恢复阶段，可以根据目标标签引导恢复各种样本进行选择：

在这里插入图片描述

通过在只有标签场景下，使用CDM攻击模型，改进了现有的MIA。使用目标模型的预测标签作为辅助数据的指导，将预测标签下的辅助数据与目标模型对目标的决策对齐，帮助攻击模型从数据中学习目标的一致特征

将多个标准正态分布噪声图像z和目标攻击标签l输入到训练好的条件扩散模型中，以预定义的引导强度恢复该标签的图像Gθ(z)，为了解决在相同指导下的数据不是同一个实体，对数据质量有影响的问题，我们使用伽马校正来将生成的图像校正为Gθ(z)γ。
将校正后的生成图像Gθ(z)γ随机变换为T(Gθ(z)γ)并输入到目标模型中进行预测，然后重复该步骤M次。
从T(Gθ(z)γ)中选择前k个鲁棒生成的(最高比率)图像，展现独特的优势