15、CF-ViT: A General Coarse-to-Fine Method for Vision Transformer

最新推荐文章于 2023-06-07 17:06:53 发布

C--G

最新推荐文章于 2023-06-07 17:06:53 发布

阅读量702

点赞数

分类专栏： # NLP 文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_50973728/article/details/129485690

版权

NLP 专栏收录该内容

21 篇文章 2 订阅

订阅专栏

简介

论文：https://arxiv.org/abs/2203.03821
github：https://arxiv.org/pdf/2203.03821.pdf

transformer 输入图像的空间维度上产生了相当大的冗余，导致大量的计算成本。

论文提出一种粗到细的vision transformer(CF-ViT)来减轻计算负担，同时保持性能

CF-ViT在不影响性能的情况下，比LV-ViT降低了53%的FLOPs，吞吐量也达到了2.01×
在这里插入图片描述
vit transformer 加速方法

Static ViT Compression
致力于通过手动设计模块，无论输入图像如何，都具有固定的计算图，从而降低网络复杂性
Dynamic ViT Compression
动态ViT根据其输入图像调整计算图

vis transformer公式

编码、输入
在这里插入图片描述
注意力权重

FFN

实现流程

主要思想是减少输入序列长度来降低计算成本
在这里插入图片描述
理论依据是

粗粒度的补丁分割也可以很好地定位信息对象
大多数图像在较短的序列长度内都能被ViT模型很好地识别

论文方法将vis transformer的过程分为两阶段实现

在粗推理阶段使用较小长度的标记序列实现图像识别，如果预测结果没达到阈值，进一步分割信息区域以进行细粒度识别

Coarse Inference Stage

输入
在这里插入图片描述
假设有 k 个编码器，输出为

再经过一个分类器 F，得到各个patch的 n-分类结果

取最大的分类概率值

使用阈值 η 来实现性能和计算之间的权衡，如果 $p^c_j > η$ ，那么输出分类结果为 j 类，否则进入细推理阶段

Informative Region Identification

并不是对所有patch都进行细分，识别并重新划分这些对性能提高最有利的信息 patch
在这里插入图片描述

使用类注意力 $a^0_k$ 作为分数来指示一个令牌是否具有信息

全局类注意力：此外，使用指数移动平均(EMA)将不同编码器之间的类注意结合起来，以更好地识别信息补丁
在这里插入图片描述
$\beta = 0.99$ 全局类注意力从第 4 个编码器开始，在最后一个编码器 $\bar{\alpha}_K$ 中选取全局类注意力得分较高的patch

Fine Inference Stage

通过注意力权重大小对patch进行排序后，进一步限制细推理的patch数量

限定细粒度分裂后的patch数为
在这里插入图片描述
$\alpha \in [0,1]$ 提供了准确性和效率之间的权衡

α = 0表示没有很好的推断，结果 patch 最少,虽然计算上很经济，但如果测试集充满了“硬”图像，性能就会下降

α = 1导致CF-ViT精细推理阶段退化到传统的ViT模型

α设为0.5

Feature Reuse

在这里插入图片描述
经过patch限定后的输入patch为：

为了不丢失原有的信息，将划分前的patch信息注入到四个细粒度补丁中

如上上图所示， $\tilde{x}_0^f$ 首先经过一个MLP映射，然后复制4份，再根据粗推理阶段的预测结果进行筛选，得到 $X_r = FR(x^1_K;x^2_L;\cdots;x_K^{N_c})$ ，然后分别与细粒度划分后的patch相加

在这里插入图片描述
简单而言，就是每个划分后的小patch应该继承划分前大patch的信息

划分后再经过一个分类器得到预测分类结果 $p^f$
在这里插入图片描述

实验

损失函数
在这里插入图片描述
交叉熵损失和 Kullback-Leibler散度

使用的η = 1，这意味着对每个输入图像都会执行精细推断阶段，η值越大，进入精细推理阶段的输入越多，性能越好，但计算成本也越大，反之亦然

result

在这里插入图片描述

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
15、CF-ViT: A General Coarse-to-Fine Method for Vision Transformer

vit
复制链接

扫一扫

专栏目录

C--G CSDN认证博客专家 CSDN认证企业博客

码龄4年

323: 原创

3万+: 周排名

9567: 总排名

35万+: 访问

: 等级

4024: 积分

829: 粉丝

726: 获赞

73: 评论

1781: 收藏

私信

关注

热门文章

分类专栏

最新评论

6、Transformer构建语言模型
0ooooh: 为啥你这个ppl这么低，我看超参数和优化器调度器和官方的差不多啊。https://pytorch.org/tutorials/beginner/transformer_tutorial.html
阿里云服务器搭建frps实现内网穿透
勾魂凉皮: 防火墙开放端口好像不能行
5、计算机图形学——着色
神仙偷偷下凡: 这些图和我老师用的好像啊
108、3D Gaussian Splatting for Real-Time Radiance Field Rendering
Anefuer_kpl: Adaptive Control部分说的好像有点错误，作者在论文中表示，无论是欠重建还是过度重建的部分高斯的梯度都是很大的，因此需要分两种情况讨论，具体怎么区分前欠重建和过度重建，作者在代码中首先计算了整个相机坐标的最大尺度，具体做法是计算所有相机坐标与平均相机坐标的距离，然后取最大距离为scene_extent，每个高斯自身有scale属性，将scale与scene_extent比较，如果该高斯的梯度大于阈值，且scale<scene_extent则表示欠重建需要clone，如果>则表示过度重建需要split。当然我只是粗略说一下过程，实际代码中scene_extent前面还乘以了一个超参数用于控制split和clone的阈值。
61、Reinforcement Learning with Neural Radiance Fields
AuthorT: 不开源

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。