这篇笔记不讲论文的故事铺垫 直接上模型和方法。
来源:CVPR2021
自然图像(三通道)去噪。
本文工作的创新不在于网络结构的创新,在于一个基生成工作(SSA模块)。
主要工作内容:
a) 基数生成:从图像特征图生成子空间基向量;
b) 投影:将特征图转化为信号子空间。
网络结构:
整体结构为最简单的U-Net, SSA模块的输入有X1和X2,分别来自下采样的特征图和经过下采样和上采样后的特征图。
基于X1和X2(信号图像的两个特征图,具体指什么后面说明)构建K维基向量{v1、v2、。。。vk},生成这个K维基向量仅通过一个端到端的多维输出。原理是X1和X2重叠,通道加倍,从通道和标准坐标角度来看,通过网络生成K个正交的基,即K个维度。K维基向量矩阵V中的K个v两两之间正交,原文描述构建投影矩阵,此处做分析:我从数学角度来理解,这个就是个不同维度上的尺子,用这个P去处理X1可以得到X1在各个维度尺子上的衡量结果。(写到这里我才理解了作者的精髓)
作者的思想是通过特殊的矩阵变换将特征图揭成了好几个通道(至少在通道的角度来看,是这样),对于一般的自然图像来说,有红绿蓝三个通道,将其映射向一个标准空间坐标系内,就是对应两两正交的x y z轴,假设特征图有三个通道或者其他数量的通道,通过线性变换将其映射向K个通道,这K个通道两两之间互相正交,构建投影矩阵时仅为了保证最后结果P是一个可逆方阵并且其中的向量两两正交(保持特征图尺寸,且构建多通道,映射向标准坐标系就是抽象的K维空间),具体如何来做,参考源代码去。
(写的比较乱,没做整理,突如其来的灵感理解)
保姆级理解:通过P将特征图揭为K个通道(线性变换),建立卷积算子将trainData和groundtruth的K个通道对应联系起来,最终作测试的时候,仅需将算子处理过的testData的K个通道的结果进行一个投影的逆变换,即可得到原来的特征图。
总结:我理解的这项工作的精髓在于揭图,虽然以三通道的自然图像出发,但我认为对于单通道的CT图来说同样可以揭成好几个通道, 应用这个思想去处理,具体效果随后做实验来分析吧。