Revealing the Dark Secrets of MIM

最新推荐文章于 2024-10-01 20:22:14 发布

武乐乐~

最新推荐文章于 2024-10-01 20:22:14 发布

阅读量918

收藏 17

点赞数 19

文章标签：目标检测深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wulele2/article/details/135659780

版权

论文名称： Revealing the Dark Secrets of Masked Image Modeling
发表时间：CVPR2022
作者及组织：Zhenda Xie, Zigang Geng, Hu Han等，来自清华，中科院，微软亚洲研究院。

前言

本文尝试探讨MIM为何有效的原因。

1、结论

由于是篇充满可视化及对比实验的文章，因此先说结论：
1) MIM能给模型所有层带来归纳偏置;
2) MIM能给不同Head带来多样性；
3) MIM在感知任务和细分类任务上优于全监督预训练。

2、对比实验条件设置

Backbone：VIT-B
预训练方法：全监督（DeiT），对比学习（Moco），MIM

3、可视化角度

论文从不同角度，可视化了三种预训练方法的热图。下面将分别介绍:

3.1.Head内的平均注意力距离（AAD）

简单说下平均注意力距离计算方法：在得到Attntion Mat后，遍历每个token与之匹配token 的相对距离，将其求和在除以token总数。因而能够定性表示Attntion Mat关注的相对位置远近的分布(引入归纳偏置)。
在这里插入图片描述

在上图中，横坐标表示不同层，纵坐标表示AAD，每个圆圈表示一个Head。全监督和对比预训练在最后三层AAD基本一致，而MIM还保持了较大分布范围，因此便得出MIM能给不同层带来归纳偏置。

3.2.Head权重值的熵(权重值的分布)

论文之后可视化了每个Head的熵(-p*logp)分布，能够衡量每个Head属于全局注意力Or局部注意力。
在这里插入图片描述

从上图可以看出，全监督和对比预训练方法在最后三层的Head熵挺大的，表示Attention Mat关注的范围更广，即全局注意力；而MIM则在最后三层熵分布范围广，即保证局部注意力同时也保证了全局注意力。

3.3.不同Head之间权重分布相似性

上述两个指标表示MIM的Head关注范围丰富，但无法确定Head与Head之间分布相似性，因此作者又衡量了不同Head之间的分布的相似性，即利用KL散度。
在这里插入图片描述

上图中大圆圈表示当前层平均KL散度，MIM相较前两种预训练方法在后三层KL散度更大。即不同Head关注的token不一致。

3.4.特征图FM之间相似性

作者借助CKA指标观察了不同FM的相似度。下图是12层FM之间热力图，颜色越亮表示越相似。可以发现，MIM层与层之间FM趋于相似。

在这里插入图片描述

4、实验角度

该章节则是从对比实验角度比较三种预训练方法。
在这里插入图片描述

在感知任务上MIM效果更好，得益于MIM引入归纳偏置和Attntion Mat多样性丰富。

武乐乐~

关注

19
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值