MobileVIT:更轻量级,更通用的对移动端更友好的VIT

目录

一:前言

二:回顾VIT

三:MobileVit

全局表征

PatchSize大小的影响


一:前言

当前纯Transformer存在的问题:

1)Transformer参数多,算力要求高

2)Transformer缺少空间归纳偏置

3)Transformer迁移到其他任务比较繁琐

4)Transformer模型训练困难

二:回顾VIT

首先对输入的图片划分成一个一个Patch,然后将每个Patch的图片进行展平。展平之后再通过一个线性映射得到针对每一个patch所对应的Token(每个Token实质上对应的就是一个向量)将这些Token放在一起就得到了Token序列,然后再对这些Token加上位置编码。再将这些加上位置编码的Token传入L个Transformer模块,再通过全连接层得到最终的输出。

三:MobileVit

 

通过上面一系列的层结构,其中MV2就是在Mo

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值