【Lite Chag2cap】用于遥感图像变化描述的轻量化Transformer

最新推荐文章于 2025-02-17 10:17:43 发布

拨清波0915

最新推荐文章于 2025-02-17 10:17:43 发布

阅读量1k

点赞数 28

分类专栏： RSICC 文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zsw0915/article/details/141312154

版权

文章目录

摘要
一、前言
二、相关工作
三、方法
四、实验
总结

摘要

RSICC旨在自动生成对遥感双时图像的差异描述，目前普遍用Transformer来捕捉全局变化特征
基于Transformer的RSICC在Transformer解码器部分存在高参数量和计算复杂度的问题
提出Sparse Focus Transformer，SFT网络由三部分构成：基于CNN的高级特征提取器，基于sparse focus attention mechanism的Transformer编码器（定位和捕捉双时图像变化区域），文本编码器
实验证明在Transformer编码器部分的参数量和计算复杂度减少了90%的同时，该方法性能不亚于SOTA方法
文章链接：https://arxiv.org/abs/2405.06598
代码链接：https://github.com/sundongwei/Lite Chag2cap

一、前言

RSICC的主流方法有三种：

1.传统机器学习算法，如SVM
2.CNN图像编码器+RNN文本解码器
3.基于注意力机制的Transformer

Transformer方法大大提升了变化描述的准确度，但是其注意力机制带来的高计算复杂度和高参数量使得其在计算资源有限的工业环境中部署和实际应用较为困难。因此，需要一种既保持精度又能部署在实际应用上的方法。

本文受到Sparse Transformer的启发，将注意力矩阵方法的稀疏分解从生成长序列文本引入到遥感图像变化检测任务，旨在建立稀疏注意机制来定位变化区域。

二、相关工作

1.高效注意力机制

1）增强局部性

Sparse Transformer：涉及将全注意力的计算分解为几个更快的注意力操作，这些注意力计算组合起来时近似密集注意力计算
LongFormer：引入了与自注意中文本序列的长度线性相关的时空复杂性，旨在确保模型能够有效地利用较低的时空复杂性来建模冗长的文档。
LeViT、MobileViT：采用具有堆叠卷积层的混合架构，有效地减少了初始层的特征数量。
Twins：采用局部和全局注意层之间交替的策略来提高性能。
RegionViT：引入了区域token和局部token的概念，从而用全局信息丰富局部上下文。
Axial Transformer&#x

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。