Multi-Modal Domain Adaptation for Fine-Grained Action Recognition 论文笔记

最新推荐文章于 2023-03-29 17:47:01 发布

yuanxue18

最新推荐文章于 2023-03-29 17:47:01 发布

阅读量762

点赞数

分类专栏：论文文章标签：深度学习

本文链接：https://blog.csdn.net/yuanxue18/article/details/114906060

版权

论文专栏收录该内容

6 篇文章 0 订阅

订阅专栏

cvpr 2020的一篇论文
参考：
https://zhuanlan.zhihu.com/p/141076517?utm_source=wechat_session
关键词为：多模态、域自适应和自监督学习
本文将上篇介绍的域自适应—即常用于图像识别的域自适应方法用于了动作识别，动作识别的输入一般分为两个部分：图像序列+光流信息，如下图所示，近似于上次介绍域自适应法的结构，其中Adversarial部分、Classification部分和上次介绍的模型一致，这篇文章提出了self-supervised模型。
在这里插入图片描述
1.多模态融合域自适应网络（借鉴GAN）
首先，在源域上论文通过RGB图像和光流两个模态融合进行动作识别，损失函数如下：

论文在softmax的前一步对两个模态的数据进行融合。特征提取器F采用3D CNN。然后，论文通过多模态下的对抗网络减少两个域之间的特征的分布差异。论文分别在每个域上计算域分类器domain classifier的域分类损失，而不是将两个模态特征融合之后再计算。文中指出这样做的好处是可以避免域分类器在优化时只关注鲁棒性较弱的那个模态。域分类器的损失函数如下
在这里插入图片描述

2.多模态自监督学习

Deepmind在2017年ICCV上的一篇文章“Look, Listen and Learn”利用视频中的视觉信息和音频信息的一致性作为自监督学习的分类标签进行表征学习。文中的一致性表示visual和audio数据是否来自同一段视频，如果是则为1，否则为0。该文作者认为如果网络可以学习到这一信息就表明其学到了音视频数据中的语义信息。本文也利用这一思路实现自监督学习。论文设计了一个模态一致性检测器C，用来自特征提取器的特征检测两个模态是否来自同一段数据，这可以进一步增强特征的表征能力。C的损失函数如下

在这里插入图片描述
论文将动作分类的损失和域分类、模态一致性分类的损失结合起来训练整个网络，总的损失函数如下：