[阅读笔记] DRONE: Dual-domain Residual-based Optimization NEtwork for Sparse-view CT Reconstruction

这是去年发表在TMI上的一篇CT重建的研究工作内容,个人认为这篇文章背后的工作点在于数据一致性层的使用,关于保真项在CT重建上的使用,从2021年开始比较多见,推断是真的有效,而不是paperly。文中提到压缩感知的应用,但由于我能力水平极其有限,没看出来该项工作有严格意义上关于压缩感知的使用。

首先来看前人工作中的痛点和本文拟解决问题:

        基于深度学习的重建方法分为三类:图像到图像、数据到图像和一个或两个域中的迭代映射。对于图像到图像重建方法,不需要直接访问原始测量值,这意味着图像重建不直接依赖于制造协议。经过训练的神经网络无需额外输入即可将差图像映射到好图像。示例性网络包括卷积神经网络(CNN)、深卷积神经网络(FBPConvNet)、基于小波变换的U-net、残差编码器-解码器CNN(RED-CNN)、denseNet反卷积网络(DD-net)等。这些方法具有快速成像和易于部署的优点。然而,他们从损坏的输入中预测输出,而不检查原始测量与基于网络输出的测量之间的数据一致性。另一方面,数据到图像重建方法将测量数据直接映射到重建图像。例如,AUTOMAP利用完全卷积网络架构将MRI测量值传输到图像。然而,由于计算量大,在高维测量的情况下很难实现。iRadonMap方法被提出用于将CT测量值转换为图像。然而,这些深层网络容易受到各种不稳定性扰动的影响。与这些相对简单的前馈网络相比,受迭代重建机制的启发,深度重建网络可以通过展开迭代算法来设计,例如,基于专家评估的学习重建网络(LEARN)、流形和图形综合卷积网络、交替方向乘子法(ADMM)网络等,它们改善了各种子采样因子的图像质量。由于这种展开方法总是需要数据来校正中间结果,因此测量变换是必要的。由于训练后的网络作为非标准正则化子,它还与迭代重建相结合,称为深图像域迭代重建。有几个例子,如原始-对偶混合梯度(PDHG)算法、momentum-Net和深层BCD-net。虽然这些网络在某些情况下取得了很好的性能,但由于其巨大的计算开销,很难在实践中实现。此外,学习到的网络通常在图像上工作,与传统迭代算法一样,迭代可能会影响性能。因此,在超稀疏视图的情况下,这些现有网络架构无法提供良好的重建质量(例如,小于100个视图,60个视图)。

        虽然目前为止在深度学习上做了很多努力,但良好的稀疏视图CT图像质量与100多个视图相关。显然,在投影视图数量远少于100的情况下提供类似的成像性能是一个当代挑战。本文主要展示在我们选定的应用程序中,深度学习如何将视图数减少到60个,而不会显著降低图像质量。(文章这么说我真的会谢,仅用60个视图还能显著保持图像质量。试问对应领域的研究学者遇到这样一句话,谁看谁不迷糊呢?)

        为了突破上述技术障碍,我们采用混合策略设计了一个用于稀疏视图CT重建的集成网络。众所周知,解析重建速度快,但对数据质量敏感。为了从受损数据中恢复真实特征,引入基础信号的先验信息进行迭代重建。由于经典先验甚至理想稀疏性和低秩的限制,迭代重建在具有挑战性的情况下不能令人满意。最近,基于学习的深度先验重建取得了巨大的成功,但仍然无法进行超稀疏视图CT重建。因此,我们有动机将这些关键算法成分结合起来,释放它们的协同效应,并重新定义稀疏视图CT的最新技术。为了重建稀疏视图CT的精确图像,我们提出了一种基于双域残差的优化网络(DRONE)。它由三个关键模块组成,分别用于嵌入、细化和感知,以系统地减少测量误差,并在分析和数据驱动先验的帮助下,基于稀疏视图测量提高重建质量。在嵌入模块中,首先利用数据扩展子网络对稀疏测量数据进行修复,形成高维数据集。扩展数据可能会引入错误。然后,图像域处理子网对使用分析方法(例如,滤波反投影(FBP)或反投影滤波(BPF))重建的初始图像进行后处理,以移除子采样伪影。在细化模块中,结合两个残差网络(一个用于数据残差,另一个用于图像残差)来细化结构细节。细化模块不仅减少了子采样伪影,而且提高了图像精度。需要强调的是,尽管基于深度学习的重建方法通常能够提供优异的重建性能,但由于缺乏所谓的“内核意识”,鲁棒性、稳定性和可推广性问题仍然是实际应用的障碍。另一方面,压缩感知(CS)方法具有这种意识,在图像重建中表现出良好的稳定性和通用性。因此,我们最后在感知模块中引入了一种感知机制,通过CS模型将嵌入和细化模块在数据和图像域中的深层先验规则化。该感知函数克服了实际测量值和学习估计值之间的差异,从而在准确性和鲁棒性方面优化了重建性能。与过去三年为相同目的开发的深度网络相比,我们的无人机网络在几个方面具有创新性。具体而言,无人机继承了深度学习和CS的优点。首先,在嵌入模块中使用编解码网络来提取数据域和图像域中的深层特征。此外,还集成了具有Wasserstein距离(WGAN)的生成性对抗网络,以保留图像域中的细节和特征。其次,在细化模块中结合数据残差和图像残差网络,从嵌入模块的输出中恢复细微的结构特征。第三,根据CS迭代重建模型对数据和图像域中的深层先验进行正则化,以确保无人机网络的鲁棒性。(明明最后做出的效果看起来挺棒的,为什么创新性这里写的这么潦草)

来看方法模型:

(这次我用一下午的时间一口气推导完,时间战线拉长容易接不住思维,从头到尾,一个不落的推过去)

        抽象角度来看CT重建的优化工作如下:

        CT成像的正演模型:   y = Af + \xi(①)。其中y是投影数据;f是CT图像数据;A是从离散线性变换角度抽象出来的广义离散线性变换,其作用是将图像f变换为投影数据;是噪声。

        CT重建工作的目的是:\underset{f}{min} = \frac{1}{2}\left \| y-Af \right \|_{F}^{2}(②),即最小化一个目标函数,使得重建所获图像和实际真值图像在投影域差别最小。

        上述②的工作由于数据量和参数原因,以及现有知识范围,无疑是在最小化而无法趋于0,即损失趋于一个min值并达到收敛。于是引入了一个正则化项使这个损失趋于0:\underset{f}{min} =\(\frac{1}{2}\left \| y-Af \right \|_{F}^{2} + \lambda _g g(f)))(③),其中lamda为正则项系数,g(f)是正则化项,这个所谓的正则化项在很多项研究工作中都有提到,甚至过去很长一段时间里有人对他做优化、改进,但我个人来说对这个东西嗤之以鼻,直到现在我仍认为从原理上来讲正则化项在泛化性上的表现是非常差的。事实上相关工作通过网络学习lamda这个超参数,就勉强说得过去了。(个人还有一个不太当讲的观点,但我仍然要讲:10年前深度学习在这个领域上未开始应用时,CT重建工作中使用正则化项做优化改进,是当时理论瓶颈驱使也是研究环境使然,有为了写paper而写paper的嫌疑,因为这个东西从理论上讲太不科学了,当然这属于我自己的看法,应该是说服了大部分人但没说服我吧,dddd。)

         结合本文来看本文研究工作如下:(开推!)

        模型结构先扔在这儿,a是整体结构,b是红色和青色部分的网络详绘,c是绿色和黄色部分的网络详绘。

         先看a中第一部分(嵌入模块)的工作:f^{'}= \Phi _{s_2}\(A_2^+\(\Phi_{s_1}\(y)))(④),\Phi_{s_1}是嵌入模块的第一个子网络,本质是一个U-net,作用是实现数据扩充,毕竟本文的原始数据太稀疏了,直接实现60→180的扩充,输出记作z_1A_2^+是FBP operator,负责将转换为CT图像;\Phi _{s_2}是另一个子网络,也就是GAN网络:\underset{G}{min}\underset{D}{max}(L_{MSE}(u,G(t))+\lambda_{wgan}*L_{WGAN}\(D,G))(⑤)、L_{WGAN}\(G,D)=\left \{ -E\left [ D\(u) \right ] + E_t\left[D\(G\(t)) \right ]+\eta E\left[\(\bigtriangledown _{\widehat{u}}D\(\widehat{u})_2-1 )^2\right ]\right \}(⑥),负责将FBP到得图像进行去噪,输出质量更好的图像记作f^{'},生成器用的就是和插值网络结构一致的U-net,mse损失+wgan实现了图像平滑+结构特性保持。第一个模块完成的工作实际上是插值(数据扩充)+图像域去噪。文中提到这一部分工作中用U-net对稀疏投影数据做60→180补全后,输出的结果中原先的60个view仍处在其原先位置,以此体现数据保真。

        再看a中第二部分(细化模块)的工作:两个子网络,第一个子网络的工作是z_2 = \Phi _{s_3}\(z_1 - A_2f^{'}),具体的工作内容是将第一部分插值得到的投影数据与第一部分最后的输出之间的投影残差作为input,ground truth为,所以z_0 - z_1作为label,训练一个网络来估计插值后产生的噪声,output为噪声z_2;第二个子网络的工作是,做FBP操作后在第二个子网络中以f_0-f^{'}为label进行训练。在看第三部分之前讨论第二部分最后两个小过程:z^d = z_2 + A_2f^{'}f^d = f^{'}+ f^{''}也就是将学习到的噪声在第一部分输出图像的投影域上消掉,以及学习到的图像噪声在第一部分输出图像上消去。最终第二部分得到的\left \{ z^d,f^d \right \}要远好于第一部分的两个子网络的输出\left \{ z_1,f^{'} \right \}(有点学习正则化项的意思)

        第三部分是一个所谓的压缩感知模块,推导过程太多,下次补,看麻了,犯困。

结论没啥好看的,效果好就得了。

文章链接:

Sci-Hub | DRONE: Dual-domain Residual-based Optimization NEtwork for Sparse-view CT Reconstruction. IEEE Transactions on Medical Imaging, 1–1 | 10.1109/tmi.2021.3078067

 模型源码链接:(其中有关于模型和数据集的详细说明)

weiwenwu12/DRONE: DRONE focus on reconstructing good images from CT scanner with 60 views of fan-beam geometry. (github.com)

  • 2
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值