论文笔记
文章平均质量分 76
ZONGYINLIU
都是牛马
展开
-
论文笔记【3】-- LeViT: a Vision Transformer in ConvNet’s Clothing for Faster Inference
论文笔记【3】-- LeViT: a Vision Transformer in ConvNet’s Clothing for Faster Inference前序前有ViT,后有Deit ,再有LeViT。ViT 首次将纯transformer从NLP领域引入CV领域。DeiT嫌弃ViT精度不够高,需要超大数据集才能训好,故从训练策略方向对ViT下手。DeiT 给出了两种虐ViT的方法不改变ViT的架构,仅仅是炼出了一组美丽的超参数,就实现了涨点。在ViT中加入了一个distillatio原创 2021-10-07 09:51:37 · 821 阅读 · 0 评论 -
论文笔记【2】-- Cait : Going deeper with Image Transformers
论文笔记【2】-- Cait : Going deeper with Image Transformers动机去优化Deeper Transformer,即,让deeper的 vision transformer 收敛更快,精度更高。所提方法(改进模型结构)方法1 : LayerScale图中 FFN 代表feed-forward networks; SA代表self- attention; η 代表Layer Normalization; α代表一个可学习的参数(比如,0, 0.5,1 )原创 2021-10-05 15:59:28 · 3179 阅读 · 0 评论 -
论文笔记【1】-- DeepViT: Towards Deeper Vision Transformer
DeepViT: Towards Deeper Vision Transformer发现问题通过余弦相似度来衡量两个注意力图的相似度。发现ViT 中:不同block中的注意力图相似,层数越深越相似,甚至一样。block内部,不同head的注意力图是多样性的。进一步实验:通过将最后几个block的Q和K设置为一样的值,以使注意力图一样。测试发现掉点不严重,这更加说明了,最后深层的注意力图很相似。表明,注意力坍塌 (attention collapse)确实是存在的。解决方法(1,2,3,4)原创 2021-10-04 14:40:41 · 680 阅读 · 0 评论