文章目录
摘要
- RSICC旨在自动生成对遥感双时图像的差异描述,目前普遍用Transformer来捕捉全局变化特征
- 基于Transformer的RSICC在Transformer解码器部分存在高参数量和计算复杂度的问题
- 提出Sparse Focus Transformer,SFT网络由三部分构成:基于CNN的高级特征提取器,基于sparse focus attention mechanism的Transformer编码器(定位和捕捉双时图像变化区域),文本编码器
- 实验证明在Transformer编码器部分的参数量和计算复杂度减少了90%的同时,该方法性能不亚于SOTA方法
- 文章链接:https://arxiv.org/abs/2405.06598
- 代码链接:https://github.com/sundongwei/Lite Chag2cap
一、前言
RSICC的主流方法有三种:
1.传统机器学习算法,如SVM
2.CNN图像编码器+RNN文本解码器
3.基于注意力机制的Transformer
Transformer方法大大提升了变化描述的准确度,但是其注意力机制带来的高计算复杂度和高参数量使得其在计算资源有限的工业环境中部署和实际应用较为困难。因此,需要一种既保持精度又能部署在实际应用上的方法。
本文受到Sparse Transformer的启发,将注意力矩阵方法的稀疏分解从生成长序列文本引入到遥感图像变化检测任务,旨在建立稀疏注意机制来定位变化区域。
二、相关工作
1.高效注意力机制
1)增强局部性
- Sparse Transformer:涉及将全注意力的计算分解为几个更快的注意力操作,这些注意力计算组合起来时近似密集注意力计算
- LongFormer:引入了与自注意中文本序列的长度线性相关的时空复杂性,旨在确保模型能够有效地利用较低的时空复杂性来建模冗长的文档。
- LeViT、MobileViT:采用具有堆叠卷积层的混合架构,有效地减少了初始层的特征数量。
- Twins:采用局部和全局注意层之间交替的策略来提高性能。
- RegionViT:引入了区域token和局部token的概念,从而用全局信息丰富局部上下文。
- Axial Transformer&#x