目录
一:前言
当前纯Transformer存在的问题:
1)Transformer参数多,算力要求高
2)Transformer缺少空间归纳偏置
3)Transformer迁移到其他任务比较繁琐
4)Transformer模型训练困难
二:回顾VIT
首先对输入的图片划分成一个一个Patch,然后将每个Patch的图片进行展平。展平之后再通过一个线性映射得到针对每一个patch所对应的Token(每个Token实质上对应的就是一个向量)将这些Token放在一起就得到了Token序列,然后再对这些Token加上位置编码。再将这些加上位置编码的Token传入L个Transformer模块,再通过全连接层得到最终的输出。
三:MobileVit
通过上面一系列的层结构,其中MV2就是在Mo