![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Transformer
文章平均质量分 71
YoJayC
这个作者很懒,什么都没留下…
展开
-
ViT Patch Embedding理解
ViT(Vision Transformer)中的Patch Embedding用于将原始的2维图像转换成一系列的1维patch embeddings。输入图像的维度为原创 2021-06-11 17:06:43 · 35685 阅读 · 16 评论 -
Attention Rollout
问题陈述 从图1a中的原始attention可以看出,只有在最开始的几层,不同位置的attention模式有一些区别,但是更高层中的attention权重更加一致。这表示随着模型层数的增加,嵌入的内容变得更加情境化,可能都带有类似的信息。此外,另一篇文章中表示注意力权重不一定与输入token的相对重要性相对应。作者使用输入消融法,blank-out方法来估计每个输入token的重要性。Blank-out用UNK逐个替换输入中的每个token,衡量其对预测正...翻译 2021-08-14 18:26:49 · 2305 阅读 · 0 评论 -
Transformer可视化概念理解
最近需要对Transformer网络的中间层进行可视化,便于分析网络,在此记录一些常用到的概念。参考:原创 2021-06-17 15:10:55 · 3134 阅读 · 0 评论