Multi-Modal Domain Adaptation for Fine-Grained Action Recognition 论文笔记

cvpr 2020的一篇论文
参考:
https://zhuanlan.zhihu.com/p/141076517?utm_source=wechat_session
关键词为:多模态、域自适应和自监督学习
本文将上篇介绍的域自适应—即常用于图像识别的域自适应方法用于了动作识别,动作识别的输入一般分为两个部分:图像序列+光流信息,如下图所示,近似于上次介绍域自适应法的结构,其中Adversarial部分、Classification部分和上次介绍的模型一致,这篇文章提出了self-supervised模型。
在这里插入图片描述
1.多模态融合域自适应网络(借鉴GAN)
首先,在源域上论文通过RGB图像和光流两个模态融合进行动作识别,损失函数如下:
在这里插入图片描述
论文在softmax的前一步对两个模态的数据进行融合。特征提取器F采用3D CNN。然后,论文通过多模态下的对抗网络减少两个域之间的特征的分布差异。论文分别在每个域上计算域分类器domain classifier的域分类损失,而不是将两个模态特征融合之后再计算。文中指出这样做的好处是可以避免域分类器在优化时只关注鲁棒性较弱的那个模态。域分类器的损失函数如下
在这里插入图片描述

2.多模态自监督学习

Deepmind在2017年ICCV上的一篇文章“Look, Listen and Learn”利用视频中的视觉信息和音频信息的一致性作为自监督学习的分类标签进行表征学习。文中的一致性表示visual和audio数据是否来自同一段视频,如果是则为1,否则为0。该文作者认为如果网络可以学习到这一信息就表明其学到了音视频数据中的语义信息。本文也利用这一思路实现自监督学习。论文设计了一个模态一致性检测器C,用来自特征提取器的特征检测两个模态是否来自同一段数据,这可以进一步增强特征的表征能力。C的损失函数如下

在这里插入图片描述
论文将动作分类的损失和域分类、模态一致性分类的损失结合起来训练整个网络,总的损失函数如下:

在这里插入图片描述
我学到的:

多模态自监督学习 感觉很有意思,给了我很多启发,可以用来做是否需要迁移的判断,接下来调研一下

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值