vision transformer的计算复杂度

本文探讨了Vision Transformer、Swin Transformer、Convolutional Vision Transformer以及Cross Attention Transformer的计算复杂度。在Vision Transformer中,计算复杂度主要由多头注意力机制决定;Swin Transformer通过窗口化注意力降低了复杂度;Convolutional Vision Transformer利用卷积降低计算量;而Cross Attention Transformer则结合了两种注意力机制,IPSA和CPSA,分别在patch内和通道间计算注意力,具有不同的复杂度特点。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Vision transformer

在这里插入图片描述

假设每个图像有 h ∗ w h*w hw 个patch,维度是 C C C

输入的图像 X X X ( 大小为 h w ∗ C hw* C hwC ),和三个系数矩阵相乘 ( 大小为 C ∗ C C*C CC ),得到 q k v qkv qkv 三个向量 ( h w ∗ C hw*C hwC ),复杂度为:
3 h w C 2 3hwC^2 3hwC2

q q q ( h w ∗ C hw*C hwC ) 和 k T k^T kT ( C ∗ h w C*hw Chw ) 相乘得到矩阵 A A A ( h w ∗ h w hw*hw hwhw ),复杂度为: ( h w ) 2 C (hw)^2C (hw)2C

A A A ( h w ∗ h w hw*hw hwhw ) 和 v v v ( h w ∗ C hw*C hwC )相乘,得到多头注意力的结果 ( h w ∗ C hw*C hwC ),复杂度为: ( h w ) 2 C (hw)^2C (hw)2C

经过MLP投影层 ( C ∗ C C*C CC ),得到 ( h w ∗ C hw*C hwC ),复杂度为:
h w C 2 hwC^2 hwC2

所以复杂度之和为: 4 h w C 2 + 2 ( h w ) 2 C 4hwC^2 + 2(hw)^2C 4hwC2+2(hw)2C</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值