视觉Transformer在低级视觉领域的研究综述

最新推荐文章于 2024-09-19 20:35:10 发布

暗魂b

最新推荐文章于 2024-09-19 20:35:10 发布

阅读量211

点赞数

文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_47020721/article/details/133012434

版权

文章介绍了视觉Transformer的基本原理，包括图像分割、注意力机制、序列化与位置编码，强调了其编码器和解码器结构。同时探讨了其在图像处理中的优点（如多模态融合和宽广感受野）以及缺点（如计算复杂度和数据需求）。还提到了Transformer在低级视觉任务的应用及其常用数据集。

摘要由CSDN通过智能技术生成

视觉Transfomer的基本原理

在这里插入图片描述

在图像处理过程中，ViT首先将输入的图片分成块，对其进行线性的编码映射后排列成一堆的向量作为编码器的输入，在分类任务中会在这个一维向量加入了一个可学习的嵌入向量用作分类的类别预测结果表示，最后通过一个全连接层输出结果

注意力机制

注意力机制让网络更聚焦于输入中相关信息的方法，从而减少对无关信息的关注程度

计算步骤：

将输入X通过函数f(x)将其分成若干个[a1,a2…at ]节点，这些节点分别通过三个权重矩阵W^q、W^k和W^{v，得到对应的q}t^ 、k^t 和 v^t
qⁱ = aⁱW^q kⁱ=aⁱW^k vⁱ=aⁱW^v
其中qⁱ 代表查询向量，后续会去和每一个kⁱ进行匹配
kⁱ代表被查询向量，后续会被每个qⁱ匹配，vⁱ代表从aⁱ中提取得到的信息向量
计算qⁱ和kⁱ之间的相似性来获得权重
对相似度权重进行归一化处理。常使用softmax函数将相似度矩阵归一化为注意力权重矩阵。

通过softMax函数就可以将多分类的输出值转换为范围在[0,1]和为1的概率分布
根据权重对信息向量进行求和得到注意力：

其中，L_x表示输入序列的长度，Similarity表示相似度计算，Q、K和V分别表示查询向量、被查询向量和信息向量

图像序列化和位置编码

Transfomer的输入是一个序列，要能够对图像进行处理则要使得二维的图像变成一个一维的序列。
在这里插入图片描述

Transformer模块

Transfomer模块上是基于编码器和解码器架构，而编码器和解码器是由多个层构成。编码器负责提取特征，解码器负责将提取到的特征转化为结果。编码器由注意力层和全连接层构成。
在这里插入图片描述

视觉Transformer的优势和缺点

优点

多模态融合能力强
更宽广的感受野

缺点

VIT有着庞大的计算量、参数量和算法复杂度。
数据需求量大

Transformer在低级视觉任务中的应用

低级视觉任务常用数据集

在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。