文章目录
一、Background
SCI(snapshot compressive imaging)快照压缩成像系统是所有能够快速将3D HSI转换为2D图像的HSI成像系统的总称。它是将多帧图像映射到一个测量值中的压缩成像系统,视频压缩成像和高光谱压缩成像是两种具有代表性的应用。尽管高速视频和高光谱图像的令人兴奋的结果已经被证明,但是重建质量差阻碍了SCI的广泛应用。
在所有SCI技术中,CASSI是目前最热门的方向。本文的任务是:CASSI (coded aperture snapshot spectral imaging)逆向问题,即:从CASSI压缩的2D图恢复得到3D的HSIs。CASSI的变换过程如下:
二、Motivation及本文工作
2.1 Motivation
现有Transformer方法存在如下问题:
(1)首先,2D-HSI信号有很明显的空间稀疏性,如上图所示。一些黑暗区域几乎没有信息。然而,现有的局部或全局Transformer不会对patches做筛选,直接将按窗口得到的patch或全图下的空间像素向量全处理为tokens,然后所有tokens输入multihead self-attention (MSA)。不含啥信息的区域也被采样到,使得模型的效率大大降低,也限制了重构的性能;
(2)其次,以往的Transformer将所有的tokens线性投影到q,k和v中,然后做矩阵乘法来计算MSA,没做聚类。然而,有的tokens之间不相关,所以无畏的增加了计算量;
(3)最后,全局Transformer的计算复杂度是空间维数的二次方,这是无法忽视和不可承受的。
2.2 本文工作
三、Method
3.1 CST网络结构图
【输入】
Y:压缩的2D图;
H:直接通过CASSI反散射变换解码出3D HSI,由于包含噪声,所以仍然模糊;
M:CASSI正变换时所用到的M在每个通道copy一次所得,或者随机初始化得到。
【中间】
X:H和M级联后过一个1&1卷积得到的初始特征图;
Xo:X通过Sparsity Estimator后得到的浅层特征图;
Ms:X通过Sparsity Estimator后得到的Mask图;
Md:根据non-overlapping窗口要分成M
∗
*
∗M个patches,将Ms也池化为M
∗
*
∗M的Mask矩阵;矩阵被二值化为一个0-1矩阵,为1表示对应的patch被选取,为0表示被掩盖;
Xd:Xo通过一个三级编解码结构对称网络后,得到的深度特征图;
R:Xd经过一个3*3卷积网络得到的残差图;
X’:X’ = X+R
3.2 SASM粗筛选
SASM包括Sparsity Estimator、Sparsity Loss和Patch Selection。它不是一个严格独立的模块,而是散落在整个网络中。主要通过Mask矩阵和稀疏函数L2来提现。
3.3 SAH-MSA细筛选
每次筛选出来的patches再一个一个输入SAH-MSA,利用Hash Mapping按像素将对应通道都聚类到某一分桶(buckets)。再丢到Multi-Heads Attention。最后得到一个Refined Patches。再合并到输入的xi中去,得到一些中间过程的x(三级编解码结构网络的中间变量)。