![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
CV论文阅读/源码分析
文章平均质量分 94
CV领域论文的阅读,以及CV领域中各小组件的介绍
小小帅AIGC
这个作者很懒,什么都没留下…
展开
-
逐步解析Vision Transformer各细节,附带源码与微调讲解,让你不再担心只会原理而写不出来代码!(最后附原论文详细阅读)~
Vision Transformer(ViT)是一种基于注意力机制的深度学习模型,它是由 Google 提出的,旨在将Transformer架构应用到计算机视觉任务中。原创 2024-02-27 18:21:03 · 1728 阅读 · 0 评论 -
从源码出发逐步解析Swin Transformer各个细节,让你不再担心只会原理而写不出来代码!(最后附原论文详细阅读)~
分级特征表示:Swin-T引入分级特征表示,将图像按层次进行划分,允许底层特征捕获更局部、细节的信息,高层特征则能够捕获更全局、抽象的信息。这种分级特征表示的设计使得模型能够更好地处理不同尺度的特征。低计算成本:相对于传统的全局自注意力机制,Swin-T的窗口注意力机制降低了计算复杂度,使得模型更加高效。此外,Swin-T还使用了相对位置编码和间距实现的移位操作,进一步提升了计算效率。泛化能力:Swin-T在大规模图像分类任务上进行了训练,并在多个数据集上进行了评估,展示了良好的泛化能力和通用性。原创 2024-02-21 18:21:24 · 1300 阅读 · 0 评论