视觉Transformer在低级视觉领域的研究综述

文章介绍了视觉Transformer的基本原理,包括图像分割、注意力机制、序列化与位置编码,强调了其编码器和解码器结构。同时探讨了其在图像处理中的优点(如多模态融合和宽广感受野)以及缺点(如计算复杂度和数据需求)。还提到了Transformer在低级视觉任务的应用及其常用数据集。
摘要由CSDN通过智能技术生成

视觉Transfomer的基本原理

在这里插入图片描述

在图像处理过程中,ViT首先将输入的图片分成块,对其进行线性的编码映射后排列成一堆的向量作为编码器的输入,在分类任务中会在这个一维向量加入了一个可学习的嵌入向量用作分类的类别预测结果表示,最后通过一个全连接层输出结果

注意力机制

注意力机制让网络更聚焦于输入中相关信息的方法,从而减少对无关信息的关注程度

计算步骤:
  1. 将输入X通过函数f(x)将其分成若干个[a1,a2…at ]节点,这些节点分别通过三个权重矩阵Wq、Wk和Wv,得到对应的qt^ 、kt 和 vt
    qi = aiWq ki=aiWk vi=aiWv
    其中qi 代表查询向量,后续会去和每一个ki进行匹配
    ki代表被查询向量,后续会被每个qi匹配,vi代表从ai中提取得到的信息向量
  2. 计算qi和ki之间的相似性来获得权重
    在这里插入图片描述
  3. 对相似度权重进行归一化处理。常使用softmax函数将相似度矩阵归一化为注意力权重矩阵。
    在这里插入图片描述
    通过softMax函数就可以将多分类的输出值转换为范围在[0,1]和为1的概率分布
  4. 根据权重对信息向量进行求和得到注意力:
    在这里插入图片描述
    其中,Lx表示输入序列的长度,Similarity表示相似度计算,Q、K和V分别表示查询向量、被查询向量和信息向量
图像序列化和位置编码

Transfomer的输入是一个序列,要能够对图像进行处理则要使得二维的图像变成一个一维的序列。
在这里插入图片描述

Transformer模块

Transfomer模块上是基于编码器和解码器架构,而编码器和解码器是由多个层构成。编码器负责提取特征,解码器负责将提取到的特征转化为结果。编码器由注意力层和全连接层构成。
在这里插入图片描述

视觉Transformer的优势和缺点

优点
  • 多模态融合能力强
  • 更宽广的感受野
    在这里插入图片描述
缺点
  • VIT有着庞大的计算量、参数量和算法复杂度。
  • 数据需求量大
    在这里插入图片描述

Transformer在低级视觉任务中的应用

低级视觉任务常用数据集

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值