Cross-Modal Transferable Adversarial Attacks from Images to Videos

本文研究了对抗扰动不同模式下的可迁移性,即利用白盒图像模型上生成的对抗扰动来攻击黑盒模型。具体来说,由于观察到图像和视频帧之间的低级特征空间相似,本文提出了一种简单而有效的跨模态攻击方法,称为图像到视频攻击(I2V),I2V通过最小化来自对抗性和良性样本的预训练图像模型的特征之间的余弦相似性来生成对抗帧,然后结合生成的对抗帧对视频识别模型执行黑盒攻击。本文实验结果也证明了跨模态对抗攻击的可行性。

由于没有用于生成视频对抗样本的白盒视频模型,在将图像模型上生成的对抗性扰动转换为攻击视频模型时,有两个主要障碍:

  • 首先:除了图像和视频数据之间的域间隙之外,视频数据还包含额外的时间信息,这导致图像模型和视频模型之间的学习特征存在差异,这种差异使得很难将对抗性的干扰从图像传输到视频
  • 第二,现有的基于同态模型(如图像模型)的传输攻击不适用于跨模式攻击场景。与现有的基于传输的图像攻击不同,在对抗扰动生成过程中,图像标签可用于优化特定于任务的损失函数(例如,交叉熵损失),在跨模式图像到视频攻击中,视频帧没有标签可用。

主要贡献:

  1. 我们研究了对抗性扰动在图像模型和视频模型之间的可传递性。特别地,我们提出了一种I2V攻击,以提高图像模型生成的视频对抗样本在不同视频识别模型之间的可传输性。据我们所知,这是针对视频识别模型的基于跨模式传输的黑盒攻击的首次工作。
  2. 我们对图像和视频模型之间的特征映射的相关性进行了深入分析。基于这一观察,I2V在图像模型的扰动特征图上优化对抗帧,以提高不同视频识别模型之间的可转移性。
  3. 我们使用六个视频识别模型进行了实证评估,这些模型是用Kinetic-400数据集和UCF-101数据集训练的。大量实验表明,我们提出的I2V有助于提高从图像模型生成的视频对抗示例的可传输性。

方法:

g:ImageNet预处理图像模型

f:视频识别模型

f(x):输入视频的视频识别模型的预测

I2V旨在通过g生成对抗样本x_{adv}=x+\delta,该样本可以在不了解f的情况下,将视频模型f愚弄为f(x_{adv})\neq y

在白盒设置中,无目标对抗攻击的目标的可以表示为:

 J:视频模型f的损失函数

在本文中,对手无法访问有关视频模型的知识,I2V利用了从图像模型生成的对抗样本来在黑盒模型中攻击视频模型。

视频模型与图像模型的相关性分析:

利用余弦相似性分析图像模型和视频模型之间的良性帧和对抗帧的中间特征的相似性,从良性样本对抗样本中获得的余弦相似性非常相似

I2V攻击:

流程:

本文提出了图像到视频(I2V)攻击,该攻击从ImageNet预处理图像模型生成视频对抗示例,以提高异构模式模型和黑盒环境中攻击视频模型的可移植性。通过扰动图像模型的中间特征,I2V生成对抗样本,以高概率扰动黑盒视频模型的中间特性。

I2V通过以下方式优化第i个对抗帧:

 g_{l}(x^{i}):图像模型中第l层相对于x_{i}的中间特征图

x_{i} \in \mathbb{R}^{H\times W\times C }:x中的第i帧

CosSim函数计算g_{l}(x^{i}+\delta)\: and\: g_{l}(x^{i})之间的余弦相似性。

如果g_{l}(x^{i})是倒数第二层的输出,W=(W_{1},\cdots ,W_{y},\cdots,W_{k})表示分类层的权重,因此W_{y}\: and \: g_{l}(x^{i})具有高度一致性来进行真实预测。

通过最小化

如果 g_{l}(x^{i}+\delta)\: and\: g_{l}(x^{i})具有单位长度,那么就可以得到最小化

 由于W_{y}\: and \: g_{l}(x^{i})之间具有高度一致性,余弦相似性的最小化导致W_{y}g_{l}(x^{i}+\delta)的值大大降低,从而使的g预测错误。

整个算法的流程可以理解为:

用一个较小的常量0.01/255 初始化对抗扰动\delta----->Adam优化器求解公式(2)更新\delta_{j}^{i}------->

x_{i}+\delta_{I}^{i}投影到x^{i}附近-------->将所有生成的对抗帧x_{adv}^{i}合并为视频对抗样本x_{adv}

攻击集合模型ENS-I2V攻击

使用多个ImageNet预处理图像模型来执行名为ENS-I2V攻击,该攻击通过以下方式优化第i个对抗帧

 ENS-I2V生成的对抗帧的中间特征与良性示例的特征集合正交,因此ENSI2V允许生成高度可转移的对抗示例

 

 

 

基于对抗的跨媒体检索Cross-modal retrieval aims to enable flexible retrieval experience across different modalities (e.g., texts vs. images). The core of crossmodal retrieval research is to learn a common subspace where the items of different modalities can be directly compared to each other. In this paper, we present a novel Adversarial Cross-Modal Retrieval (ACMR) method, which seeks an effective common subspace based on adversarial learning. Adversarial learning is implemented as an interplay between two processes. The first process, a feature projector, tries to generate a modality-invariant representation in the common subspace and to confuse the other process, modality classifier, which tries to discriminate between different modalities based on the generated representation. We further impose triplet constraints on the feature projector in order to minimize the gap among the representations of all items from different modalities with same semantic labels, while maximizing the distances among semantically different images and texts. Through the joint exploitation of the above, the underlying cross-modal semantic structure of multimedia data is better preserved when this data is projected into the common subspace. Comprehensive experimental results on four widely used benchmark datasets show that the proposed ACMR method is superior in learning effective subspace representation and that it significantly outperforms the state-of-the-art cross-modal retrieval methods.
### 跨模态融合的技术与实现 跨模态融合(Cross-Modal Fusion)是指通过结合来自不同数据源的信息来提升模型性能的一种技术。这种技术广泛应用于视觉-语言表示学习、多感官交互等领域。以下是关于该主题的一些关键技术及其具体实现方式。 #### 多模态数据处理的基础理论 在机器学习领域,多种人工智能技术被用于改进资产定价准确性以及更广泛的多模态数据分析任务[^1]。这些技术包括但不限于机器学习、自然语言处理、深度学习等。其中,深度学习尤其擅长于提取复杂特征并将其映射到统一的空间中以便后续分析。 #### Bridge-Tower 方法论 一篇名为《Bridge-Tower: Building Bridges Between Encoders in Vision-Language Representation Learning》的论文介绍了一种新颖的方法——Bridge-Tower架构[^2]。此方法旨在解决视觉和语言之间的语义鸿沟问题。它通过构建连接两个编码器之间桥梁的方式实现了高效的跨模态信息传递。这种方法不仅提高了下游任务的表现力,还增强了对于未见过样本的理解能力。 #### 实现细节 为了更好地理解如何实际操作 cross-modal fusion,在 Python 中可以采用如下代码框架作为起点: ```python import torch from transformers import BertModel, ViTModel class CrossModalFusion(torch.nn.Module): def __init__(self): super(CrossModalFusion, self).__init__() # 初始化文本编码器 (BERT) self.text_encoder = BertModel.from_pretrained('bert-base-uncased') # 初始化图像编码器 (ViT) self.image_encoder = ViTModel.from_pretrained('google/vit-base-patch16-224-in21k') # 定义全连接层以进行联合嵌入空间投影 self.fc_text = torch.nn.Linear(768, 512) self.fc_image = torch.nn.Linear(768, 512) def forward(self, text_input_ids, image_pixel_values): text_output = self.text_encoder(text_input_ids).last_hidden_state[:,0,:] image_output = self.image_encoder(image_pixel_values).last_hidden_state[:,0,:] fused_text = self.fc_text(text_output) fused_image = self.fc_image(image_output) return fused_text, fused_image ``` 上述代码片段展示了如何利用预训练的语言模型 BERT 和视觉 Transformer 来创建一个多模态融合网络结构。通过对齐两种模式下的隐藏状态向量维度至相同大小后完成初步融合过程。 #### 总结 综上所述,跨模态融合涉及多个子领域的协同工作,从基础算法设计到高级应用开发均需深入研究。无论是基于传统统计学还是现代神经网络驱动方案,其核心目标始终围绕着提高异构数据间关联度展开探索。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值