DeiT小总结

        ViT成功的将Transformer引入了计算机视觉领域,但是很多人发现ViT复现很是困难,一个就是它需要的计算复杂度很高,8块V100需要训练85天,二就是很不稳定。DeiT就提出了一系列改进来解决这方面的问题,使得ViT真正开始起作用了。

        1.DeiT选取了更好的超参数可以保证模型能够更好的收敛

                                     

 

        2.DeiT做了许多的数据增广可以使得模型能够在更小的数据集上面训练

 

        3.DeiT做了知识蒸馏能够使得ViT进一步的提升性能

用一个已经训练好的techer model来帮助student来进行训练,techer model本身是不参与训练的。 

4.一些小的tips:

 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值