Contextual Error-Modulated Generalized Diffusion Model for Low-Dose CT Denoising and Generalization

基于上下文误差调制的低剂量CT去噪与泛化的广义扩散模型

在这里插入图片描述

论文链接:https://arxiv.org/abs/2304.01814

项目链接:https://github.com/qgao21/CoreDiff

Abstract

由于光子不足伪影和电子噪声,低剂量计算机断层扫描(CT)图像受到噪声和伪影的影响。最近,一些研究尝试使用扩散模型来解决以前基于深度学习的去噪模型遇到的过度平滑和训练不稳定性问题。然而,扩散模型由于涉及大量采样步骤而导致推理时间长。近年来,cold diffusion 模型对经典扩散模型进行了推广,具有更大的灵活性。受cold diffusion 的启发,提出了一种新的用于低剂量CT (LDCT)去噪的上下文误差调制广义扩散模型,称为CoreDiff。首先,CoreDiff利用LDCT图像取代随机高斯噪声,并采用一种新颖的均值保持退化算子来模拟CT退化的物理过程,由于信息丰富的LDCT图像作为采样过程的起点,大大减少了采样步骤。其次,为了缓解采样过程中不完善的恢复算子导致的误差积累问题,我们提出了一种新的上下文误差调制恢复网络(CLEAR-Net),该网络可以利用上下文信息约束采样过程免受结构失真和调制时间步长的嵌入特征的影响,以便在下一个时间步与输入更好地对齐。第三,为了在尽可能少的资源下快速将训练好的模型推广到一个新的未知剂量水平,我们设计了一个one-shot学习框架,使CoreDiff仅使用一张LDCT图像与正常剂量CT (NDCT)(未)配对,就能更快更好地进行推广。在四个数据集上的大量实验结果表明,我们的CoreDiff在去噪和泛化性能方面优于竞争工作的方法,并且具有临床可接受的推理时间。

I. INTRODUCTION

计算机断层扫描(CT)是一种广泛应用于临床诊断的成像方式。然而,CT扫描中的x射线电离辐射可能会导致脱发和癌症等健康风险。在临床实践中可以通过降低管电流来降低辐射剂量。不幸的是,由此产生的低剂量CT (LDCT)图像包含严重的噪声和伪影,影响放射科医生的诊断。当原始数据可访问时,供应商特定的弦图预处理或迭代重建算法可以有效地去除LDCT图像中的噪声。然而,弦图预处理可能会造成边缘模糊和分辨率损失,而迭代重建方法计算成本昂贵[3]-[5]。此外,由于商业隐私,研究人员通常无法获得原始数据。与它们不同的是,图像后处理算法[6]-[8]直接处理重建图像,由于其即插即用的特性而无需访问原始数据,因此越来越受欢迎。例如,Ma等人利用之前正常剂量扫描中的信息冗余来计算基于非局部均值(NLM)的LDCT图像去噪的非局部权重[9]。Li等人利用对phantom数据重复扫描得到的分析噪声图,改进NLM算法,实现基于CT图像局部噪声水平的自适应去噪[10]。Sheng等人提出了一种基于块匹配3D (block matching 3D, BM3D)的低剂量兆伏级CT图像去噪算法,该算法利用BM3D去噪后残留纹理信息得到的显著性图来增强软组织的视觉显著性[11]。

近年来,人们在LDCT图像后处理的深度学习(DL)技术方面做了很多努力,取得了很好的效果[12],[13]。最初,一些研究人员通过最小化去噪和正常剂量CT (NDCT)图像之间的像素损失来优化编码器-解码器网络;一个代表性的模型是残差编码器-解码器卷积神经网络(RED-CNN)[14]。此外,Xia等人将RED-CNN整合到一个参数依赖框架(PDF-RED-CNN)中,用于多种几何形状和剂量水平[15]。尽管这些方法具有出色的去噪性能,但往往会导致图像过度平滑[16],[17]。为了缓解这个问题,一些作品使用生成对抗性网络(GAN)来保存更多的纹理和细节,尽可能接近NDCT图像[18]。例如,Yang等人将Wasserstein GAN和感知损失(WGAN-VGG)相结合,产生了更逼真的去噪图像[19]。Huang等人提出了一种dual-domain GAN (DU-GAN)来学习去噪图像和NDCT图像之间的全局和局部差异[20]。然而,由于GAN的对抗性,通常很难训练,并且需要仔细设计优化和网络架构以确保收敛[21]。

近年来,扩散模型因其出色的图像生成性能而受到广泛关注[22]-[27],它具有多生成模型的优点:类似于变分自编码器的良好分布覆盖和比GAN更好的生成质量[28]-[30]。然而,由于扩散模型从高斯噪声中逐步生成图像,由于多次迭代采样,导致推理计算成本昂贵;例如,去噪扩散概率模型(DDPM)[23]需要1000个采样步骤。这限制了它们在各种实时场景中的应用,特别是在医学成像领域[31],[32]。一些工作加速了扩散模型,使其实用。例如,Nichol和Dhariwal提高了DDPM的对数似然性能,并将采样步数减少到100步[25]。Xia等人使用快速常微分方程求解器加速了LDCT图像去噪的DDPM,只需要50个采样步骤[32]。尽管在一定程度上减少了推理时间,但这些改进的扩散模型在经典扩散模型的理论框架内关注性能和采样速度之间的权衡。最近,一种被称为cold diffusion的广义扩散模型扩展了经典扩散模型,通过预先定义的退化算子,如添加各种类型的噪声、模糊、下采样等,逐渐使图像退化[33],[34]。cold diffusion使用可学习的恢复算子来逆转扩散过程,并通过“恢复-再退化”采样过程生成图像。虽然cold diffusion允许自定义扩散过程,但其性能受学习恢复算子的影响。实践中,学习到的恢复算子可能不完美,导致多次采样迭代后恢复的图像与地面真实图像之间的误差累积,并导致不可忽略的像素偏差。

本文提出了一种基于cold diffusion的LDCT去噪的上下文误差调制广义扩散模型(CoreDiff)。为了加速采样,我们开发了一种适用于LDCT去噪任务的均值保持退化算子,将LDCT图像作为扩散过程的终点(正向)和采样过程的起点(反向)。这样做,可以显著减少采样步骤的数量,因为LDCT图像(warm state)比随机高斯噪声(hot state)更有信息量。为了缓解采样过程中不完善的恢复算子所带来的累积误差,我们进一步提出了一种新的上下文调制误差恢复网络(CLEAR-Net),该网络可以利用相邻切片中丰富的上下文信息来减轻z轴上的结构变形,并通过误差调制模块纠正输入图像与时间步嵌入特征之间的不匹配。最后,得益于所提出的均值保持退化算子,我们设计了一个one-shot学习框架,该框架可以使用单个LDCT图像与NDCT(未)配对,快速将CoreDiff推广到一个新的未知剂量水平。

综上所述,本工作的贡献如下。首先,我们提出了一种新的用于LDCT去噪的广义扩散模型CoreDiff,其中产生的扩散过程模拟了CT图像退化的物理过程。据我们所知,这是首次将cold diffusion模型扩展到LDCT去噪。其次,我们引入了一种新的恢复网络CLEAR-Net,该网络利用相邻切片之间的上下文信息约束采样过程,并利用最新的预测校准时间步长嵌入特征,从而减轻了累积误差。第三,我们进一步设计了一个one-shot学习框架,它可以快速轻松地使训练过的CoreDiff适应新的未知剂量水平。这可以通过单个LDCT图像与NDCT(未)配对来完成。第四,在四个测试数据集上的大量实验结果证明了所提出的CoreDiff的优越性能,每切片的临床可接受推断时间为0.12秒。

II. METHOD

在本节中,我们首先介绍cold diffusion模型的基本原理和误差积累问题。在此基础上,提出了一种新的均值保持扩散模型框架和一种新的上下文误差调制恢复网络(CLEAR-Net)的广义扩散模型框架下LDCT去噪的CoreDiff算法,以及一种快速泛化的one-shot学习框架。

A. 初步:cold diffusion

cold diffusion模型是一种广义扩散模型[33],它将高斯噪声的扩散和采样扩展到任何类型的退化,如添加各种类型的噪声、模糊、下采样等。具体来说,给定一个来自训练数据分布Q的图像 x 0 x_0 x0,使用定制的退化算子D(·)将图像 x 0 x_0 x0(cold state)逐渐退化为从随机初始分布P(hot state)采样的图像 x T x_T xT,例如高斯分布,其中T为扩散的总时间步数。然后,将扩散过程中任意时间步长t的图像 x t x_t xt定义为 x t = D ( x 0 , x t , t ) x_t = D(x_0, x_t, t) xt=D(x0,xt,t),其中t对应于退化程度,对于任意t,算子D(·)应该是连续的。在LDCT去噪中,添加噪声是最相关的退化算子。对于加入噪声的扩散过程,cold diffusion模型中的退化算子与经典扩散模型相同,定义为:
x t = D ( x 0 , x T , t ) = α t x 0 + ( 1 − α t ) x T , (1) \boldsymbol{x}_t=\mathcal{D}(\boldsymbol{x}_0,\boldsymbol{x}_T,t)=\sqrt{\alpha_t\boldsymbol{x}_0}+\sqrt{(1-\alpha_t)}\boldsymbol{x}_T, \tag{1} xt=D(x0,xT,t)=αtx0 +(1αt) xT,(1)
其中 x T x_T xT是已知分布且 α t < α t − 1 α_t < α_{t−1} αt<αt1的随机噪声, ∀ 1 ≤ t ≤ T ∀ 1≤t≤T ∀1tT

在反向过程中,我们首先从P中采样 x T x_T xT,然后使用恢复算子R(·)对扩散过程进行反向,可以表示为:
x ^ 0 = R ( x t , t ) ≈ x 0 . (2) \widehat{\boldsymbol{x}}_0=\mathcal{R}(\boldsymbol{x}_t,t)\approx\boldsymbol{x}_0. \tag{2} x 0=R(xt,t)x0.(2)
在实践中,R(·)是一个参数化为θ的神经网络,可通过以下目标函数进行优化:
min ⁡ θ E x 0 ∼ Q , x T ∼ P ∥ R θ ( D ( x 0 , x T , t ) , t ) − x 0 ∥ . (3) \min_{\theta}\mathbb{E}_{\boldsymbol{x}_0\sim Q,\boldsymbol{x}_T\sim P}\|\mathcal{R}_{\boldsymbol{\theta}}(\mathcal{D}(\boldsymbol{x}_0,\boldsymbol{x}_T,t),t)-\boldsymbol{x}_0\|. \tag{3} θminEx0Q,xTPRθ(D(x0,xT,t),t)x0∥.(3)
注意,对于任意t, R θ ( ⋅ ) R_θ(·) Rθ()可以直接从 x T x_T xT生成恢复后的图像 x ^ 0 \widehat{\boldsymbol{x}}_0 x 0。然而,我们强调,这样的一步预测可能会产生模糊的图像 x ^ 0 \widehat{\boldsymbol{x}}_0 x 0和严重的细节损失[33]。

为了解决这一问题,cold diffusion模型遵循经典扩散模型[23]、[25]、[28]中的退火采样算法,采用“恢复-再退化”采样算法,通过总共T个采样步骤逐步生成图像。根据预测值 x ^ 0 \widehat{\boldsymbol{x}}_0 x 0,可以计算出时间步长t−1的图像 x ^ t − 1 \widehat{\boldsymbol{x}}_{t-1} x t1,公式如下:
x ^ t − 1 = D ( x ^ 0 , x T , t − 1 ) . (4) \widehat{\boldsymbol{x}}_{t-1}=\mathcal{D}(\widehat{\boldsymbol{x}}_0,\boldsymbol{x}_T,t-1). \tag{4} x t1=D(x 0,xT,t1).(4)
虽然这种迭代采样算法可以产生比一步预测更清晰的图像,但 x 0 x_0 x0 x ^ 0 \widehat{\boldsymbol{x}}_0 x 0之间的预测误差可能会导致 x ^ t − 1 \widehat{\boldsymbol{x}}_{t-1} x t1与时间步长t−1之间的不对准。因此, R θ ( ⋅ ) R_θ(·) Rθ()的预测偏差可能会因不对准而进一步恶化,因为误差在采样过程中会累积。Bansal等人提出了一种改进的采样算法来减小这种累积误差[33]:
x t − 1 = x t − D ( x ^ 0 , x ^ T , t ) + D ( x ^ 0 , x ^ T , t − 1 ) , (5) \boldsymbol{x}_{t-1}=\boldsymbol{x}_{t}-\mathcal{D}(\widehat{\boldsymbol{x}}_{0},\widehat{\boldsymbol{x}}_{T},t)+\mathcal{D}(\widehat{\boldsymbol{x}}_{0},\widehat{\boldsymbol{x}}_{T},t-1), \tag{5} xt1=xtD(x 0,x T,t)+D(x 0,x T,t1),(5)
式中 x ^ T = ( x t − α t x ^ 0 ) / ( 1 − α t ) \widehat{\boldsymbol{x}}_{T}=\left(\boldsymbol{x}_{t}-\sqrt{\alpha_{t}}\widehat{\boldsymbol{x}}_{0}\right)/\sqrt{(1-\alpha_{t})} x T=(xtαt x 0)/(1αt) 。虽然公式(5)中改进的采样算法缓解了误差积累的问题,并被证明可以产生更好的图像质量[33],[34],但它并没有纠正输入与其相应时间步长之间的不对齐,这可能导致像素值的不可忽略的偏移。

B. 建议的CoreDiff模型

图1展示了CoreDiff的整体架构,其中包括一个以LDCT图像作为扩散过程端点的广义扩散模型,一个新的均值保留退化算子来模拟CT退化的物理过程,以及一个新的CLEAR-Net来解决cold diffusion中的累积误差和不对准问题。

在这里插入图片描述

1) 低剂量CT的广义扩散模型:以往基于扩散的LDCT去噪方法[31]、[32]通常将扩散过程描述为高斯噪声的加入,并以LDCT图像为条件预测相应的NDCT图像。然而,需要注意的是,CT图像中噪声的统计特征是复杂的,不能简单地用高斯分布来建模。此外,对于均值为零的噪声,通常假设干净的图像代表多组噪声测量的期望[35]-[37]。在LDCT去噪任务的上下文中,我们认为NDCT图像 x 0 x_0 x0表示对其LDCT对应物 { x T i } i = 1 N \{x^i_T\}^N_{i=1} {xTi}i=1N的集合的期望。然而,如图2(a)所示,我们发现由于 α t \sqrt{\alpha_{t}} αt ( 1 − α t ) \sqrt{(1-\alpha_{t})} (1αt) 的和并不一致等于1,因此由公式(1)计算的中间图像期望偏离 x 0 x_0 x0,在扩散过程中出现明显的CT数漂移。因此,式(1)中被广泛采用的降解算子由于剂量的降低,偏离了CT降解的实际物理过程。

在这里插入图片描述

与以往基于扩散的方法将LDCT去噪任务转化为以随机高斯噪声作为扩散过程终点的条件图像生成任务,需要大量步骤才能生成准确估计的图像不同,我们提出了一种LDCT去噪的广义扩散模型,该模型以LDCT图像作为扩散过程的终点,即 x T x_T xT。为了使扩散过程模拟CT图像退化的物理过程,我们引入一个新的退化算子D(·),定义如下:
x t = D ( x 0 , x T , t ) = α t x 0 + ( 1 − α t ) x T , (6) \boldsymbol{x}_t=\mathcal{D}(\boldsymbol{x}_0,\boldsymbol{x}_T,t)=\alpha_t\boldsymbol{x}_0+(1-\alpha_t)\boldsymbol{x}_T, \tag{6} xt=D(x0,xT,t)=αtx0+(1αt)xT,(6)
其中,每个时间步长的图像 x t x_t xt保留了LDCT图像 x t x_t xt特有的噪声统计量。如图2(b)所示,使用该算子的另一个优点是它能够确保扩散过程的中间图像 x t x_t xt保持相同的期望 x 0 x_0 x0,而不引入额外的CT数移位。因此,我们将该退化算子称为保持均值的退化算子;我们注意到,在实际情况下,由于复杂的噪声和伪影的存在,它可能不是严格的均值保留。这种特性不仅使CoreDiff的扩散过程与LDCT图像退化过程一致,而且对我们的one-shot学习框架也很重要。LDCT图像xT可以看作是cold state(干净图像)和hot state(随机噪声)之间的中间状态,我们称之为warm state。如第II-A节所述,cold diffusion和经典高斯扩散模型的采样过程从随机高斯噪声开始,逐步减小图像的噪声,直到生成 x ^ 0 \widehat{\boldsymbol{x}}_0 x 0。因此,它们需要大量的采样步骤来生成具有与LDCT图像类似的噪声水平的图像,该图像包含NDCT图像的基本语义信息。因此,所提出的CoreDiff可以使用较小的T从warm state进行采样,而不是从随机高斯噪声开始。

2) 上下文误差调制恢复网络(CLEAR-Net):为了减轻不完善的恢复网络造成的累积误差和cold diffusion中的不对准,我们引入了一种新的恢复网络CLEAR-Net。基于“恢复-再退化”采样算法,我们将训练过程中的每个时间步分成两个阶段,如图1所示:1)在第一阶段,我们首先使用公式(6)获得退化图像 x t x_t xt,然后使用CLEAR-Net, R θ ( ⋅ ) R_θ(·) Rθ(),估计 x ^ 0 \widehat{\boldsymbol{x}}_0 x 0;2)在第二阶段中,我们根据最新的预测 x ^ 0 \widehat{\boldsymbol{x}}_0 x 0执行公式(4)中的再退化操作,计算出 x ^ t − 1 \widehat{\boldsymbol{x}}_{t-1} x t1,然后使用相同的网络 R θ ( ⋅ ) R_θ(·) Rθ()对NDCT图像进行预测。我们的CLEAR-Net的新颖之处在于两个方面。一方面,受[5],[31]中使用的上下文信息的启发,我们从 x T x_T xT的相邻切片中引入上下文信息,以减轻采样过程中的结构失真。更具体地说,我们假设 x T x_T xT的相邻切片分别为 x T − 1 x^{ - 1}_T xT1 x T + 1 x^{+ 1}_T xT+1,分别对应于它的上切片和下切片。我们沿着通道维度在每一步连接 x t ∈ R 1 × H × W x_t∈R^{1×H×W} xtR1×H×W,并在起始点 x T − 1 x^{ - 1}_T xT1 x T + 1 x^{+ 1}_T xT+1连接相邻的切片,这就产生了 x t x_t xt的上下文版本,即 x t c = C o n c a t ( x T − 1 , x t ˙ , x T + 1 ˙ ) ∈ R 3 × H × W \boldsymbol{x_{t}^{\mathrm{c}}}=\mathrm{Concat}(\boldsymbol{x_{T}^{-1}},\dot{\boldsymbol{x_{t}}},\dot{\boldsymbol{x_{T}^{+1}}})\in\mathbb{R}^{3\times H\times W} xtc=Concat(xT1,xt˙,xT+1˙)R3×H×W。由于相邻的切片在采样过程中保持不变,从而约束了网络 R θ ( ⋅ ) R_θ(·) Rθ()产生连续的z轴结构。

另一方面,CLEAR-Net利用误差调制模块(EMM)来校准网络 x ^ t − 1 \widehat{\boldsymbol{x}}_{t-1} x t1输入与t−1时间步嵌入特征之间的偏差。具体来说,我们的EMM是一个基于特征的线性调制模块[38]-[40],用于调制时间步长嵌入特征,其中时间步长t−1的调制因子估计如下:
β t − 1 , γ t − 1 = F ϕ ( x ^ 0 , x T ) , x ^ 0 = R θ ( x t , t ) , (7) \beta_{t-1},\gamma_{t-1}=\mathcal{F}_{\phi}(\widehat{x}_{0},x_{T}),\quad\widehat{x}_{0}=\mathcal{R}_{\boldsymbol{\theta}}(\boldsymbol{x}_{t},t), \tag{7} βt1,γt1=Fϕ(x 0,xT),x 0=Rθ(xt,t),(7)
其中, F ϕ ( ⋅ ) F_\phi(·) Fϕ()是一个由 ϕ \phi ϕ参数化的浅网络,用于根据最新预测 x ^ 0 \widehat{\boldsymbol{x}}_0 x 0和初始输入LDCT图像 x T x_T xT估计调制因子。将t−1的时间步嵌入特征调制如下:
f ~ t − 1 = β t − 1 f t − 1 + γ t − 1 , f t − 1 = M L P ( S i n P E ( t − 1 ) ) , (8) \widetilde{f}_{t-1}=\beta_{t-1}f_{t-1}+\gamma_{t-1},\boldsymbol{f}_{t-1}=\mathrm{MLP}(\mathrm{SinPE}(t-1)), \tag{8} f t1=βt1ft1+γt1,ft1=MLP(SinPE(t1)),(8)
式中SinPE(·)表示时间步长t−1的弦位置编码, f t − 1 f_{t−1} ft1为时间步长嵌入特征,来自一个多层感知器(MLP),其中 f ~ t − 1 \widetilde{f}_{t-1} f t1是调制后的感知器。请注意,所提出的EMM仅涉及第二阶段,并且在 R θ ( ⋅ ) R_θ(·) Rθ()的每次上/下采样操作之后使用调制特征。

有了拟议的CLEAR-Net,我们的CoreDiff的最终训练目标定义如下:
min ⁡ θ , ϕ E [ ∥ R θ ( x t c , t ) − x 0 ∥ 2 ⏟ Stage I ∥ 2 + ∥ x ^ ^ 0 − x 0 ∥ 2 ] , ⏟ (9) \min\limits_{\theta,\phi}\mathbb{E}\Big[\|\underbrace{\mathcal{R}_{\boldsymbol{\theta}}(\boldsymbol{x}_{t}^{\mathrm{c}},t)-\boldsymbol{x}_{0}\|^{2}}_{\text{Stage I}}\|^{2}+\|\underbrace{\widehat{\widehat{x}}_{0}-\boldsymbol{x}_{0}\|^{2}\Big],} \tag{9} θ,ϕminE[Stage I Rθ(xtc,t)x022+ x 0x02],(9)
式中, x ^ ^ 0 \widehat{\widehat{x}}_{0} x 0表示第二阶段时间步长t−1时 R θ ( ⋅ ) R_θ(·) Rθ()的输出;即, x ^ ^ 0 = R θ ( x ^ t − 1 c , t − 1 , F ϕ ( x ^ 0 , x T ) ) \widehat{\widehat{\boldsymbol{x}}}_{0}=\mathcal{R}_{\boldsymbol{\theta}}(\widehat{\boldsymbol{x}}_{t-1}^{\mathrm{c}},t-1,\mathcal{F}_{\boldsymbol{\phi}}(\widehat{\boldsymbol{x}}_{0},\boldsymbol{x}_{T})) x 0=Rθ(x t1c,t1,Fϕ(x 0,xT)) x ^ t − 1 c = C o n c a t ( x T − 1 , x ^ t − 1 , x T + 1 ) \widehat{\boldsymbol{x}}_{t-1}^{\mathrm{c}}=\mathrm{Concat}(\boldsymbol{x}_{T}^{-1},\widehat{\boldsymbol{x}}_{t-1},\boldsymbol{x}_{T}^{+1}) x t1c=Concat(xT1,x t1,xT+1)

最后,在CoreDiff的采样过程中,每个时间步只执行退化算子和恢复算子一次。对于训练好的CLEAR-Net,我们使用公式(5)中改进的采样算法,并根据公式(6)中的退化算子替换系数来推断最终的去噪图像。训练和抽样(推理)过程分别如算法1和算法2所示。

在这里插入图片描述

C. 快速泛化的One-shot学习

在临床实践中,由于设备和方案的不同,所获得的LDCT图像也不尽相同。如何利用尽可能少的资源使一个训练好的模型快速适应新的未知剂量水平是一个重要的临床问题[15],[41],[42]。

在这里插入图片描述

在这里,我们设计了一个one-shot学习(OSL)框架,专门为训练后的CoreDiff设计,只有最少T个可学习参数,并使用单个LDCT图像进行训练,如图3所示。通过在公式(6)中引入均值保持退化算子,CoreDiff的“恢复-再退化”过程能够逐步去除图像中的噪声和伪影,得到一系列均值相同但噪声程度不同的去噪图像。我们的想法是整合这些图像,以产生视觉上最优的去噪图像,为一个新的,看不见的剂量水平,实现如下:
x o p t = ∑ t = 0 T − 1 w t x t s . t . ∑ t = 0 T − 1 w t = 1 , ∀ t , w t ≥ 0 , (10) \begin{aligned}x_{\mathrm{opt}}=\sum_{t=0}^{T-1}w_{t}x_{t}\mathrm{s.t.}\sum_{t=0}^{T-1}w_{t}=1,\forall t,w_{t}\geq0,\end{aligned} \tag{10} xopt=t=0T1wtxts.t.t=0T1wt=1,t,wt0,(10)
其中 w t , t = 0 , … , T − 1 w_t, t = 0,…,T−1 wt,t=0,,T1是用于每一步图像协同的可学习权值, x o p t x_{opt} xopt表示新剂量水平下的最佳去噪图像。在训练这个One-shot学习框架时,我们冻结了CLEAR-Net的参数,只学习了 w t , t = 0 , … , T − 1 w_t, t = 0,…,T−1 wt,t=0,,T1。因此,我们可以通过将单个图像分成多个小块来训练框架。即使新的LDCT和NDCT图像是不配对的,我们的OSL框架也不会引入结构变形,因为所有的 x t x_t xt都对应于相同的NDCT图像。为了确保 x o p t x_{opt} xopt在不过度平滑的情况下具有更好的视觉感知,我们使用感知损失[19]来指导这些T参数的学习。

III. EXPERIMENTS AND RESULTS

A. 数据集

我们在实验中使用了四个数据集,涵盖了不同的剂量、中心和对象。

1) Mayo 2016数据集:我们使用“2016 NIH-AAPMMayo Clinic Low-Dose CT Grand Challenge”数据集进行训练和测试[43],该数据集包含10例患者的5936张1mm厚度正常剂量CT切片。随机选取9例患者作为训练集,其余1例患者作为测试集。为了获得不同剂量水平的图像,采用成熟的LDCT模拟算法,采用公认的“泊松+高斯”噪声模型生成低剂量投影[44]:
p l d = ln ⁡ I 0 Poisson ( I 0 exp ⁡ ( − p h d ) ) + Gaussian ( 0 , σ e 2 ) , (11) p_{\mathrm{ld}}=\ln\frac{I_{0}}{\text{Poisson}(I_{0}\exp(-\boldsymbol{p_{\mathrm{hd}}}))+\text{Gaussian}(0,\sigma_{e}^{2})}, \tag{11} pld=lnPoisson(I0exp(phd))+Gaussian(0,σe2)I0,(11)
其中 P L D P_{LD} PLD P h D P_{hD} PhD分别代表低剂量和正常剂量投影。 I 0 I_0 I0是入射光子的数量,设为1.5×105 σ e 2 σ^2_e σe2为电子噪声方差,根据[15]固定为10。然后,采用滤波反投影(FBP)算法对图像进行重构。在本实验中,我们模拟了50%、25%、10%和5%的剂量数据,其中5%对应超低剂量情况[45]。为了进行公平的比较,对所有深度学习方法进行了25%或5%剂量的训练和测试。使用50%和25%剂量的测试数据来验证我们的one-shot学习框架的泛化性能。

2) Mayo 2020数据集:为了检验不同方法在同一中心数据集上对新剂量水平的泛化性能,采用Mayo Clinic于2020年最新发布的“Low dose CT Image and Projection Data”作为外部测试,命名为Mayo 2020数据集[46]。该数据集包含来自两家供应商的299次扫描,提供25%的头部和腹部剂量数据以及10%的胸部剂量数据。我们随机选择5个胸部和5个腹部扫描,包含800个图像用于混合剂量水平测试。

3) Piglet 数据集:为了进一步检验不同方法在不同中心数据集上的泛化性能,我们还使用了使用GE Discovery CT750高清扫描仪获得的真实Piglet 数据集,该数据集共包含850张CT图像[47]。该数据集提供了每次NDCT扫描对应的50%、25%、10%和5%剂量扫描。本实验选用25%和10%两种剂量数据。

4) Phantom数据集:我们还使用公开可用的真实Phantom数据集(Gammex 467 CTphantom)来检验所提出方法的临床实用性。该数据集包含使用Thorax方案的9种不同剂量扫描(从33到499ma)[48]。本实验选用271mAs(54.31%)和108mAs(21.64%)两个剂量数据。每次扫描,选择10至21层,以确保所有圆柱形植入物的最佳可见性。

B. 实施细节

随后[49],我们使用U-Net作为提出的CLEAR-Net的主干,该主干由两个下采样块、一个中间块、两个上采样块和一个输出卷积层组成。CLEAR-Net的输入大小为3 × 512 × 512,包含相邻切片的上下文信息。我们使用Adam优化器对CoreDiff进行优化,学习率为2 × 10−4,总共进行150k次迭代训练。 α 1 α_1 α1,…,$ α_T$设为0.999 ~ 0的线性变化。我们基于MIRT工具箱进行了数据模拟[50]。我们在PyTorch中实现了CoreDiff,并在一个NVIDIA RTX 3090 GPU (24GB)上进行了训练,大小为4。对于我们的one-shot学习框架训练,我们将每张图像分为81个大小为256 × 256的patch,步幅为32。用于训练的mini-batch大小为8,学习率设置为2 × 10−3,总训练迭代数为3k。在测试阶段,我们根据公式(10)直接将CoreDiff输出的大小为512 × 512的图像与学习到的权重相乘,得到最优去噪图像。

我们将CoreDiff与四种LDCT去噪方法进行了比较,包括:1)迭代重建算法:惩罚加权最小二乘模型(PWLS) [4];2)基于RED-CNN的方法:RED-CNN[14]和PDF-REDCNN [15];3)基于GAN的方法:WGAN-VGG[19]、DUGAN[20]和基于U-Net的内容-噪声互补学习(CNCL-U-Net) [51];4)基于扩散的方法:去噪扩散MRI的去噪扩散模型(DDM2)和改进的DDPM (IDDPM)[25]。我们按照原始论文或官方开源代码设置了比较的基于DL的方法的超参数,而PWLS的所有超参数都遵循[3]开源代码中提供的设置。具体而言,将PWLS的总迭代次数设置为20次。我们还对来自Mayo 2016数据集的所有剂量的训练数据进行了额外的PDF-RED-CNN训练,称为PDF-RED-CNN∗;我们将原论文中使用的7个几何和剂量条件参数调整为1个参数,即剂量水平。对于DDM2训练,我们用Noise2Sim[52]代替了分层预训练的MRI去噪模型,Noise2Sim是一个设计良好的LDCT去噪模型。我们参考了一些专注于为LDCT图像去噪任务开发扩散模型的工作对IDDPM进行了修改[31],[32]。在每个时间步长将LDCT图像与采样图像沿通道尺寸进行级联。然后将拼接后的图像输入到网络中,引导IDDPM生成相应的去噪图像。我们按照他们原论文的建议设置IDDPM训练T = 1000,然后在推理过程中使用1000、50和10个采样步骤进行比较;所得模型分别命名为IDDPM-1000、IDDPM-50和IDDPM-10。我们的CoreDiff在训练和推理中使用了相同数量的步骤;除非另有说明,否则CoreDiff的T = 10,所得模型被命名为CoreDiff-10。

采用三种常用的客观图像质量评价指标:峰值信噪比(PSNR)、结构相似性(SSIM)指数和均方根误差(RMSE)来定量评价图像的去噪性能。此外,我们还使用了三种新的客观IQA指标,即特征相似指数(FSIM)[53]、视觉信息保真度(VIF)[54]和噪声质量度量(NQM)[55],这些指标与放射科医生对医学图像的主观评估有了更好的一致性[56]。更高的PSNR, SSIM, FSIM, VIF和NQM以及更低的RMSE表示更好的性能。除非另有说明,所有指标均基于[- 1000,1000]HU的CT窗口计算。

C. Mayo 2016数据集上的性能比较

在本小节中,我们评估了不同模型对来自Mayo 2016数据集的25%和5%剂量的测试数据的去噪性能;请注意,所有的模型也是在相同的剂量上训练的。

1) 对25%剂量的评价:图4为25%剂量试验数据的代表性切片,经过不同方法去噪,便于直观比较。橙色箭头表示病灶位于红色感兴趣区域(ROI)。尽管基于RED - CNN的方法可以有效地去除LDCT图像中的噪声,但它往往会模糊细节。在基于GAN的方法中,WGAN-VGG引入了天鹅绒伪影,而DU-GAN提供了更接近NDCT图像的纹理。CNCL-U-Net 保留了大部分细节,但其残差图在预测骨边缘方面存在明显差异。在基于扩散的模型中,DDM2表现出明显的伪影和CT数漂移。我们推测这种现象可能是由于DDM2假设图像噪声服从高斯分布,这与CT图像的实际噪声分布有偏差。无论在纹理保存还是细节保留方面,IDDPM和我们的CoreDiff都优于其他比较方法。对于IDDPM,将采样步数T降低到50对去噪性能影响不大。然而,当T减小到10时,由于采样不足,模型产生的结果最差。此外,IDDPM-1000/-50可以擦除关键病变信息,而我们的CoreDiff可以很好地保留这些信息。残差图证实了我们的方法有最小的预测偏差。

在这里插入图片描述

表1给出了各种方法的定量结果。我们的CoreDiff优于所有基于DL的方法和迭代重建算法。值得注意的是,我们的方法在所有指标方面都大大优于第二好的方法(PDF-RED-CNN)。

在这里插入图片描述

2) 5%剂量评价:5%剂量试验数据定性结果如图5所示。在这种超低剂量情况下,由于光子不足伪影效应,FBP图像遭受明显严重的噪声和条纹伪影,使其无法用于临床诊断。一些去噪方法的去噪性能急剧下降。图5显示基于RED - CNN的方法和CNCL-U-Net产生过平滑的结果。此外,PWLS和WGAN-VGG都在去噪后的图像中引入了明显的伪影。除了基于扩散的方法外,DU-GAN的性能最好。然而,DU-GAN的去噪结果缩小了病变的大小。除IDDPM-10和DDM2外,其他基于扩散的模型在超低剂量去噪任务中均表现出优异的性能,对LDCT去噪具有很大的应用前景。其中,我们的CoreDiff在残差图和放大ROI方面都表现出最好的去噪性能。

在这里插入图片描述

如图6所示为不同方法的剖面结果,如图5中NDCT图像中的蓝线所示。红色箭头表示我们的CoreDiff比其他方法更好地保持CT数。

在这里插入图片描述

表2为5%剂量试验数据的定量结果。我们的CoreDiff也超越了所有竞争工作的方法。平均而言,我们的CoreDiff比第二好的PDFRED-CNN实现了+1.46 dB PSNR, +1.39% SSIM和-15.45% RMSE。此外,表2还报告了不同方法对单幅图像去噪的计算时间。CoreDiff的推理速度比基于扩散的模型快得多,达到了临床可接受的水平。

在这里插入图片描述

此外,我们在图4和图5中引入了对比噪声比(contrast-to-noise ratio, CNR)[57]、[58]来评估低对比病变的可检测性。病灶与背景ROI之间的CNR越高,检测到低对比病灶的概率越高。如图7所示,我们从两个切片中仔细选择了蓝色病变ROI和黄色背景ROI,不同方法去噪后ROI的CNR值如表III所示。可以看出,RED-CNN和PDF-RED-CNN的CNR值都达到了前两名,而我们的方法的CNR值排名第三。

尽管如此,如图7所示,RED-CNN和PDFRED-CNN都模糊了病变的边缘,这对于医生分期疾病和确定其良恶性非常重要。

在这里插入图片描述

考虑到在很多临床实践中,CT值经常被用来区分健康组织和病变组织,我们也计算了表III中病变ROI的平均像素值。值得注意的是,我们的CoreDiff显示了最接近ground truth的病变ROI的CT数。

在这里插入图片描述

D. 消融研究

我们进行了消融研究,以检查不同T设置和CoreDiff中所有成分的影响。所有模型都在Mayo 2016年数据集的5%剂量数据上进行了训练和测试。

1) 不同T设置下的消融:我们在T = 1,10,50和250时评估CoreDiff在训练和推理方面的性能。图8为不同T值下去噪后的图像。当T = 1时,CoreDiff降低为一步恢复,导致去噪后的图像边缘模糊。随着T的增大,组织边界逐渐清晰,但推断时间也随之增加。此外,恢复网络的预测误差也随着T的增加而累积。例如,当T = 1时,PSNR和RMSE值最高,对应的像素级误差和过度平滑的图像较少。当T = 10时,CoreDiff的SSIM最大,去噪后的图像在视觉上最接近地面真实值。当T≥50时,CoreDiff的定量性能逐渐下降。尽管有我们的CLEAR-Net,但随着T变大,累积的误差也不能忽视。因此,考虑到去噪图像的清晰度,定量性能和方法的推理时间,T = 10是我们CoreDiff的合适设置。

在这里插入图片描述

2) 消融对不同组件的影响:我们进一步研究了我们的广义扩散过程的影响,包括均值保持降解算子、引入的上下文信息和CLEAR-Net中的EMM。为了公平比较,我们将原始cold diffusion的总采样步长T设置为10作为基线。为简单起见,本文提出的LDCT图像(warm state)的广义扩散过程简称为Warm,上下文信息的引入简称为CTX。表IV给出了不同分量的定量比较,可以看出所有提出的分量对CoreDiff的整体去噪性能都有显著的贡献。平均而言,我们所有组件的CoreDiff在基线上实现了+3.08 dB PSNR, +2.23% SSIM和-29.85% RMSE。

在这里插入图片描述

E. 对新剂量和数据集的one-shot泛化

我们进一步在四个不同的测试数据集上进行了实验,以评估我们的one-shot学习框架的有效性,它可以检验1)来自同一数据集(Mayo 2016数据集)的不同剂量的泛化;2)来自同一中心的不同数据集(Mayo 2020数据集),3)来自不同中心的不同物种(Piglet数据集),4)来自不同中心的phantom数据(Phantom数据集)。对于本小节中的所有实验,除PDF-RED-CNN 外,所有模型(包括我们的模型)都是在Mayo 2016年数据集上使用5%剂量数据进行训练的。特别地,PDF-RED-CNN使用来自Mayo 2016数据集的所有剂量数据进行训练。此外,泛化实验中使用的测试数据的剂量在不同的数据集之间有所不同。对于来自任何数据集的新剂量,我们只选择一个新的LDCT图像和一个(未)配对的NDCT图像来训练公式(10)中的OSL框架的权值。如果将新的LDCT和NDCT图像配对,则生成的OSL模型称为CoreDiff+OSLp。为了简化新训练数据的配对要求,我们还考虑了在不同时间收集LDCT和NDCT图像的未配对场景。为了实现这一点,我们在对应的LDCT图像的两个切片下面选择一个NDCT图像作为训练标签,以模拟不配对训练中存在的轻微偏移;得到的OSL模型被称为CoreDiff+OSL。

1) 在Mayo 2016数据集上对新剂量水平的泛化:我们检验了CoreDiff对新剂量水平的泛化,其中模型在5%剂量数据上进行训练,并在50%和25%剂量试验数据上进行评估,均来自Mayo 2016数据集。注意,将PDF-REDCNN∗、CoreDiff+OSLp和CoreDiff+OSLu与其他方法进行比较是不公平的,因为它们使用了50%和25%剂量的额外训练数据。

表5给出了CoreDiff+OSLp和CoreDiff+OSLu学习到的权重。配对训练和非配对训练得出的权重分布高度相关,表明OSL框架在临床应用中的灵活性。

在这里插入图片描述

图9给出了50%剂量LDCT图像的定性结果。RED-CNN和CNCL-U-Net似乎都平滑了图像,因为测试图像中的噪声水平高于训练图像中的噪声水平。虽然DU-GAN和IDDPM成功地保留了图像纹理信息,但某些细节(如血管)丢失了。虽然我们的CoreDiff倾向于去除不必要的噪音,但它倾向于保留关键的解剖细节。我们强调我们的CoreDiff+OSLp和CoreDiff+OSLu产生了更接近ground truth的视觉感知效果。相反,PDF-RED-CNN *可能会引入一些失真。图10为25%剂量LDCT图像的定性结果,可以得出类似的结论。

在这里插入图片描述

2) 对Mayo 2020数据集的泛化:我们进一步评估了CoreDiff和CoreDiff+OSLu对Mayo 2020数据集中25%和10%剂量的有效性。为了尽可能地模拟临床应用场景,我们选择了5%剂量的胸部切片和25%剂量的腹部切片,以及它们不配对的正常剂量切片,分别训练两个one-shot模型。通过结合这两个单独的one-shot模型,我们可以快速地将我们的CoreDiff推广到混合剂量水平的测试数据。

图11为Mayo 2020数据集的代表性胸片去噪结果。所有的方法都在一定程度上消除了噪声。基于RED - CNN的方法使图像平滑,并且在ROI中丢失了肺部的许多细节。PDF - RED - CNN∗导致一些细节损失,部分原因是我们的10%剂量入射光子数设置与梅奥诊所使用的设置之间的差距。虽然与基于RED-CNN的方法相比,PWLS保留了更多的信息,但它可能无法提供足够的降噪。在基于GAN的方法中,CNCL-U-Net表现最好,但也会导致背景值的偏移。基于扩散的方法在噪声抑制和图像保真度之间表现出良好的平衡。最后,所提出的OSL框架被证明有助于使CoreDiff实现与ground truth非常相似的纹理。

在这里插入图片描述

表六给出了定量结果。在比较的方法中,PDF-RED-CNN∗具有最高的PSNR,这得益于多剂量数据的训练,而IDDPM具有最高的SSIM,表明更好地保留了结构信息。令人惊讶的是,我们的CoreDiff即使在没有额外OSL框架的情况下仅在5%剂量数据上进行训练,也能取得比它们更好的性能。我们推测这是由于一种更合理的基于扩散的方法允许模型逐步从图像中去除噪声并避免结构失真。此外,上下文误差调制模块使CoreDiff对输入的变化更具鲁棒性。OSL框架进一步提高了PSNR和SSIM,表明CoreDiff+OSLu可以通过学习最优去噪图像来产生更逼真的视觉纹理和结构信息。

在这里插入图片描述

3)对Piglet数据集的泛化:我们还检验了提出的one-shot框架在提高Piglet数据集泛化性能方面的效果。我们在25%和10%剂量的Piglet数据集上测试了所有训练过的模型。从该Piglet数据集中选择一个切片及其(非)配对的正常剂量切片来训练我们的CoreDiff+OSLp和CoreDiff+OSLu

图12和图13显示了25%和10%剂量的两个代表性切片的去噪结果。在10%剂量情况下,RED-CNN、WGAN-VGG和CNCL-U-Net严重模糊去噪图像。虽然DU-GAN和IDDPM设法避免了全局平滑,但它们仍然会导致关键局部细节的丢失。PDF-RED-CNN∗和CoreDiff成功地保留了细节。当与OSL框架集成时,来自CoreDiff+OSLp和CoreDiff+OSLu的去噪图像显示出最接近NDCT图像的纹理。CoreDiff+OSLp和CoreDiff+OSLu也比CoreDiff提高了定量性能,并且优于其他方法。在25%剂量情况下,令人惊讶的是,除CoreDiff+OSLp和CoreDiff+OSLu外,其余方法的定量指标甚至比FBP更差。这一观察结果突出了基于DL的模型在多中心、多物种CT数据中推广时的局限性。然而,在我们的OSL框架内,CoreDiff+OSLp和CoreDiff+OSLu的去噪图像一致地显示出优越的视觉质量和定量性能。

在这里插入图片描述

4)对phantom数据集的泛化:为了进一步检验所提出的CoreDiff、CoreDiff+OSLp和CoreDiff+OSLu的临床实用性,我们对phantom数据集进行了泛化实验,并选择信道化Hotelling观测器(CHO)来定量评估不同方法在低对比度信号检测任务上的性能。CHO在评估不同CT图像重建算法的低对比度检测任务性能方面的效用已经得到了探索,结果表明CHO与人类观察者具有很高的相关性[59]-[61]。用信噪比(SNR)来衡量不同方法去噪后的图像作为输入对CHO的检测性能越大越好。如图14和图15所示,我们将存在信号的蓝色背景ROI和不存在信号的黄色背景ROI送入CHO进行信号检测。所有训练好的模型分别在来自该phantom数据集的54.31%和21.64%剂量的数据上进行测试。对于PDF-RED-CNN *,我们使用最近的相应剂量(25%和50%)作为参数依赖框架内的条件输入。

图14和图15给出了用不同方法去噪的54.31%和21.64%剂量的代表性切片。RED-CNN和CNCL-U-Net模糊了圆柱形植入物的边缘,而WGAN-VGG和IDDPM则引入了明显的伪影。DUGAN在去噪图像中表现出不足的噪声抑制。虽然PDF-RED-CNN∗优于其他比较方法,但与我们的CoreDiff相比,在21.64%剂量情况下,它在保留边缘细节方面存在不足。所提出的OSL框架有助于我们的模型生成接近NDCT图像的背景纹理,从而产生更有利的视觉结果。

在这里插入图片描述

表7给出了不同方法的定量特定任务绩效。CoreDiff以外的其他方法的性能甚至不如FBP,这可能是由于测试数据(phantom)和训练数据(患者)之间分布的变化。与定性分析一致,我们的CoreDiff的性能仍然是最优的。当与OSL框架集成时,我们的模型的任务特异性性能进一步增强,甚至在54.31%剂量情景下超过NDCT。

在这里插入图片描述

IV. DISCUSSION

A. 讨论CoreDiff的好处

实验结果表明,我们的CoreDiff在定量、定性和特定任务性能方面优于其他竞争模型,证明了广义扩散模型在LDCT去噪方面的潜力。值得注意的是,即使是1000步采样,针对LDCT去噪任务修改的IDDPM也比我们的CoreDiff表现得差。在这里,我们从以下三个方面讨论了所提出的CoreDiff与其他基于扩散的LDCT去噪方法相比的优势。

1)受益于确定性采样过程:最近,提出了几种基于扩散模型的LDCT去噪方法[31],[32]。然而,它们大多遵循经典的高斯扩散模型框架,将LDCT图像去噪任务转化为条件生成任务。高斯扩散模型的采样过程可以统一为随机微分方程(SDE),以保证良好的目标分布覆盖率[28]。然而,值得注意的是,图像去噪任务不同于图像生成任务,因为它只需要在去噪图像和干净图像之间建立一对一的映射。在本研究中,我们建立了一个基于广义扩散模型的确定性采样过程,不仅加快了采样过程,而且有利于图像去噪任务。

2)受益于本文提出的均值保持退化算子:图2显示,高斯扩散模型中常用的退化算子随着剂量的减小而偏离CT图像退化的物理过程。所提出的均值保持退化算子不仅在扩散过程的每个时间步长中引入了LDCT图像特有的噪声和伪影,而且还确保了对于中间图像中的每个像素,其CT数应该与NDCT图像中的CT数具有相同的平均值。

3)从提出的CLEAR-Net中获益:由于追求像素级精度,扩散模型采样过程中的误差积累问题对于图像去噪任务更为关键。在这项工作中,我们提出了一种新的恢复网络CLEAR-Net,它可以利用上下文信息来约束采样过程免受结构失真的影响,并调制时间步长嵌入特征,以便在下一个时间步长更好地与输入对齐。

B. 关于one-shot学习框架的讨论

我们还在四个数据集上评估了所提出的one-shot学习框架,大量的实验结果证实了该框架在资源最少的情况下比现有方法具有很强的泛化性。在这里,我们认为5%是超低剂量的情况,而在大多数临床扫描中使用的实际剂量超过5%。然而,当测试数据的剂量低于其中一个训练数据时,经过10步采样后的无OSL CoreDiff输出已经是我们能得到的最优去噪结果。因此,需要进一步的研究来探索我们的CoreDiff如何从高剂量的可用训练数据推广到低剂量的测试数据。最近的研究如GMM-U-Net[41]和PDF[15]也关注了泛化问题,我们的工作与他们的主要区别如下。

1)它们基于以前的深度学习框架,这些框架在LDCT成像质量方面受到限制。我们的工作首次探讨了如何增强扩散模型在处理复杂LDCT去噪场景时的鲁棒性。

2)PDF在训练阶段以剂量、成像几何等信息的输入为条件,增强了其在重建各种测试数据时的鲁棒性。然而,它的性能测试数据与几何和剂量水平没有遇到训练期间将受到损害。GMM-U-Net采用高斯混合模型(Gaussian mixture model, GMM)表征LDCT图像的噪声分布,需要根据不同的数据集经验选择不同的高斯模型个数和损失函数权重。与它们相比,我们只使用了一张新的LDCT图像和一张(非)配对的NDCT图像进行one-shot学习框架训练,消除了对测试数据进行经验超参数调整的需要,从而能够快速适应新的未知剂量水平。

3)我们验证了CoreDiff在高要求的超低剂量成像任务中的潜力。相反,他们使用的试验数据剂量高于我们的超低剂量水平。

C. 局限性讨论

我们承认这项工作有一些局限性。首先,在实际场景中,由于LDCT图像的噪声均值可能不完全为0,因此所提出的退化算子并不是严格意义上的“均值保持退化算子”。LDCT图像中产生噪声的原因非常复杂,可能受到多种因素的影响,包括散射、线束硬化、患者运动、金属植入物等[62]。因此,需要进一步改进退化算子,以更好地接近实际的LDCT物理退化过程。其次,虽然我们的CoreDiff的采样速度明显快于DDM2和IDDPM,但其推理时间仍然是基于RED-CNN和GAN的模型的10倍。最近一些旨在加速扩散模型的技术可能会集成到我们的CoreDiff中,以进一步减少采样步骤。例如,稳定扩散所使用的潜在空间采样技术[63]和一致性模型所使用的知识蒸馏技术[64]。然而,减少采样步骤意味着one-shot学习框架将使用更少的中间图像,需要在泛化性能和推理时间之间进行权衡。第三,由于测试数据只包括两个病变,进行任务驱动的读者研究不会产生统计上显著的结果。我们打算在未来的研究中纳入更大的测试患者数据集,以进行多读者、多病例研究(MRMC)研究。

V. CONCLUSION

在这项工作中,我们提出了一种新的用于LDCT图像去噪的上下文误差调制广义扩散模型,称为CoreDiff。提出的CoreDiff利用(i) LDCT图像作为扩散过程的信息端点,(ii)引入均值保持退化算子来模拟CT退化的物理过程,(iii)提出的恢复网络CLEAR-Net来减轻累积误差和不对准,以及(iv)设计的one-shot学习框架来提高泛化。实验结果证明了CoreDiff的有效性,特别是在超低剂量情况下。值得注意的是,我们的CoreDiff模型只需要10个采样步骤,这使得它比临床应用的经典扩散模型快得多。

  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值