通过深度学习实现精确CT重建的下采样成像几何建模
论文地址:https://ieeexplore.ieee.org/document/9410296/
项目地址:https://github.com/hejipro/DSigNet
Abstract
X射线计算机断层扫描(CT)在临床上被广泛用于通过使用穿透X射线重建活体的断层图像来诊断各种疾病。对于精确的CT图像重建,通常需要辐射衰减过程的精确成像几何模型来解决CT扫描的反演问题,该问题将受试者编码为不同角度位置的一组中间表示。在这里,我们表明,通过深度学习技术进行下采样成像几何建模,可以随后实现精确的CT图像重建。具体而言,我们首先提出了一种用于数据采集过程的下采样成像几何建模方法,然后将其纳入分层神经网络,该网络同时结合了CT成像系统的几何建模知识和从数据驱动的训练过程中获得的先验知识,以实现精确的CT图像重建。所提出的神经网络表示为DSigNet,即用于CT图像重建的基于下采样成像几何的网络。我们证明了所提出的DSigNet在利用临床患者数据进行精确CT图像重建方面的可行性。除了提高CT图像质量外,所提出的DSigNet可能有助于降低现代CT成像系统的计算复杂度并加快重建速度。
I. INTRODUCTION(介绍)
X射线计算机断层扫描(CT)由于其在重建对象/患者的内部解剖结构而不造成侵入性损伤方面的巨大优势,已成为现代医院和诊所不可或缺的成像方式[1],[2]。传统上,CT图像重建需要对对象和投影空间之间的关系进行适当的建模,以便将正弦图数据反向投影到图像域中,这被称为成像几何建模[3]。近几十年来,精确的成像几何建模在精确的CT图像重建中变得很常见,并且已经广泛研究了各种方法,如基于点、线和区域的建模方法[4]–[6]。然而,对精确成像几何建模的追求导致了CT重建的图像质量和计算成本之间的权衡,因为更精确的成像几何建模通常需要更高的计算复杂性,尤其是对于具有迭代重建方法[7]-[12]的低剂量CT成像,其包含多个前向和反向投影操作。
为了降低计算复杂度,已经做出了各种努力,试图在CT图像重建过程中仅使用一次反向投影操作。一些研究改进了传统的滤波反投影(FBP)算法,因为它只需一次反投影操作就具有很高的计算效率[13]。这些改进的FBP算法基于迭代重建方法构造了特定的滤波算子。近年来,深度学习的繁荣进一步推动了仅需一次反向投影操作的CT图像重建的发展[14]。例如,Würfl等人[15]提出通过使用深度学习技术学习投影权重来改进FBP算法。Zhu等人[16]提出了一个统一的重建框架,称为流形逼近自动变换(AUTOMAP),该框架构建了一个具有多个完全连接层的复杂“反向投影操作”。最近,我们构建了一个可学习的正弦反投影(SBP)运算,并将其纳入用于CT图像重建的反Radon变换近似(iRadonMAP)框架[17]。针对各种CT应用,如低剂量CT重建[18]、金属伪影减少(MAR)[19]、稀疏视图重建[20]、螺旋CT成像[21]和有限角度CT成像[22],已经提出了更多基于深度学习的重建方法,仅需一次反向投影操作。这些方法在实现精确和快速的CT图像重建方面具有巨大的潜力。然而,它们仍然依赖于用精确的成像几何建模构建的传统反投影操作,这是复杂的,并限制了这些方法计算成本的进一步降低。AUTOMAP中的“反投影操作”甚至比传统的反投影操作更复杂。具有足够重建精度的更简化的成像几何建模方法尚未得到广泛研究。
在这项研究中,我们没有用精确的成像几何模型构建前向和后向投影操作,而是通过在深度学习框架内结合现有的建模知识和数据驱动的学习先验知识,用下采样的成像几何建模来执行准确快速的CT图像重建。具体来说,我们首先利用现有的建模知识为虚拟CT成像系统设计了一个下采样成像几何模型。虚拟CT成像系统是通过将真实CT成像系统按一定比例缩小来生成的,该比例用于构建一个轻量级的反投影模块,以取代大规模复杂的反投影模型进行CT图像重建。因此,与真实的CT扫描系统相比,轻量级的反向投影模块可以在计算上更高效。随后,我们将轻量级的反向投影模块合并到分层神经网络中,用于从测量的正弦图数据进行重建。通过在结构化训练过程中从大量增强数据集中学习,我们可以获得一些有用的先验知识,将其编码到神经网络中,以补偿轻量级的反向投影模块,这为实现快速准确的CT图像重建提供了机会。
需要强调的是,测量的正弦图数据是用真实的CT成像系统而不是缩小的虚拟系统获得的,并且缩小的成像几何模型与测量的正弦图像数据不匹配。换句话说,尽管下采样成像几何模型具有降低计算成本的潜在优势,但它不能正确描述物体和投影空间之间的真实关系,这不足以使用传统的CT图像重建方法进行精确的CT成像。使我们的神经网络能够执行精确的CT图像重建的是,在数据驱动的训练过程中,通过特征提取和表示学习来编码将真实物体投影几何关系转换为虚拟关系(由下采样成像几何模型描述)的有用先验知识。正是下采样建模策略和学习的先验知识的结合,使我们的神经网络能够实现快速准确的CT图像重建。
II. METHODOLOGY(方法论)
在这项工作中,我们的目标是通过下采样成像几何建模来进行快速准确的CT图像重建。为了实现这一目标,我们采用深度学习技术构建了一个用于CT图像重建的可解释神经网络。为了简单起见,所提出的神经网络表示为DSigNet,即基于下采样成像测量的网络,如图1所示。所提出的神经网络的输入是测量的正弦图数据,输出是相应的重建图像。所提出的神经网络的重建能力是在具有大量增强数据集的端到端训练过程中获得的。
在下文中,我们首先通过引入虚拟CT扫描系统来描述下采样成像几何建模策略。然后,我们详细介绍了所提出的DSigNet的网络架构和具体采用的技术。
A. Downsampled Imaging Geometreling(下采样成像几何建模)
第三代成像几何结构在现代CT扫描仪中被广泛采用。在许多情况下(例如,低数量的检测器行),第三代几何结构可以很好地近似为二维(2D)扇束几何结构。因此,本工作中的CT扫描系统是指具有扇束成像几何结构的系统,如图2(a)所示。扇束成像几何结构下的CT扫描过程可以用数学表达式表示如下[23]:
g
(
γ
,
θ
)
=
∫
−
∞
∞
∫
−
∞
∞
f
(
x
,
y
)
δ
(
a
⃗
⋅
β
⃗
−
s
γ
)
d
x
d
y
.
(1)
g(\gamma,\theta)=\int_{-\infty}^\infty\int_{-\infty}^\infty f(x,y)\delta(\vec{a}\cdot\vec{\beta}-s_\gamma)dxdy. \tag{1}
g(γ,θ)=∫−∞∞∫−∞∞f(x,y)δ(a⋅β−sγ)dxdy.(1)
这里, f ( x , y ) f(x,y) f(x,y)表示在 x − y x-y x−y平面中扫描的任意对象; g ( γ , θ ) g(\gamma,\theta) g(γ,θ)是相应的测量正弦图数据,其中 γ \gamma γ是到达特定探测器仓的射线相对于探测器中心射线的夹角, θ \theta θ是辐射源的旋转角; δ ( ⋅ ) \delta(\cdot) δ(⋅)是一个狄拉克-德尔塔函数; a ⃗ = ( x , y ) \vec{a}=(x,y) a=(x,y)和 β ⃗ = ( cos φ , sin φ ) \vec{\beta}=(\cos{\varphi },\sin{\varphi }) β=(cosφ,sinφ)是两个向量,其中 φ = θ + γ \varphi=\theta+\gamma φ=θ+γ; s γ s_{\gamma} sγ是夹角为 γ \gamma γ的探测器仓到中心探测器仓的物理距离。
为了便于推导,可以将公式(1)重写为离散线性系统,其定义如下:
g
=
A
μ
(2)
g=A\mu \tag{2}
g=Aμ(2)
这里,
g
g
g表示离散化正弦图数据;
μ
\mu
μ是要重建的离散化图像;而
A
A
A是前向投影操作。伴随的
A
T
A^T
AT被称为反投影操作。
A
A
A和
A
T
A^T
AT都是CT图像重建的基本操作。
为了构建 A A A和 A T A^T AT,应该选择一个合适的数学模型来描述CT扫描系统中投影射线和像素之间的相互作用。最简单的模型是基于点的模型[4],它假设像素值集中在像素的中心。射线和像素之间的相互作用被确定为1(即相交)或0(即不相交)。因此, A A A的元素 a i j a_{ij} aij的相应计算可以定义如下:
a
i
j
=
{
1
,
i
t
h
r
a
y
i
n
t
e
r
s
e
c
t
e
d
w
i
t
h
j
t
h
p
i
x
e
l
0
,
o
t
h
e
r
s
.
(3)
a_{ij}=\begin{cases}1,&ith\, ray\, intersected \, with \, jth \, pixel\\ 0,&o t h e r s\end{cases}. \tag{3}
aij={1,0,ithrayintersectedwithjthpixelothers.(3)
这里,确定射线i是否与像素j相交可以等效于找到一个集合:
Υ
=
(
x
,
y
,
γ
,
θ
)
∣
x
cos
φ
+
y
sin
φ
=
s
γ
\Upsilon={(x,y,\gamma,\theta)|x\cos{\varphi}+y\sin{\varphi}=s_{\gamma}}
Υ=(x,y,γ,θ)∣xcosφ+ysinφ=sγ,该集合可以用几何参数计算,包括重建图像的参数(包括x轴和y轴上的体素数和体素大小等),正弦图数据的参数(包括探测器数量、探测器尺寸、角位置总数等)和CT旋转系统的参数(如源到探测器的距离等)。每个参数的缩写和相应含义如表一所示。
在传统的CT图像重建方法中,A和AT都需要尽可能精确地设计,并且上述基于点的模型不足以用于精确的CT图像重构的CT扫描系统缩写表一。可以选择更精细的模型,例如基于线和区域的模型[5]、[6]。然而,更精确的模型更复杂,相应的计算成本随之增加。更重要的是,使用生成测量正弦图数据的真实CT扫描系统构建的前向和后向投影操作通常是大规模的,这也增加了CT图像重建的计算负担。
在这项工作中,我们引入了一个虚拟CT扫描系统,如图2(b)所示,通过按一定比例缩小真实系统的几何参数(如表一所示)。在这里,为了便于说明,我们将缩小比例因子设置为2。真实CT扫描系统和缩小的虚拟系统之间的参数关系如图2所示。然后,我们在虚拟CT扫描系统的基础上,用公式3中定义的最简单的基于点的模型构建了两种操作(表示为 A ′ A' A′和 A ′ T A'^{T} A′T)。在缩小比例因子为2的情况下,虚拟CT扫描系统构建的 A ′ A' A′和 A ′ T A'^{T} A′T的尺寸可以比真实CT扫描系统的尺寸小16倍。
值得强调的是, A ′ A' A′和 A ′ T A'^{T} A′T都不能直接用于传统的CT图像重建方法,尽管它们在降低CT图像重建的计算复杂性方面具有潜在的优势。在第II-B节中,我们设计了一个名为DSigNet的神经网络架构,以结合所提出的前向和后向投影操作(即 A ′ A' A′和 A ′ T A'^{T} A′T)来执行快速准确的CT图像重建。
B. Network Architecture(网络架构)
所提出的DSigNet包含三个主要部分,即正弦图滤波网络(SFNet)、虚拟反向投影(VBP)模块和图像滤波网络(IFNet),如图1所示。特别是,SFNet使用下采样操作缩小正弦图域中的特征图,如图3(a)所示,并将嵌入测量正弦图数据中的真实对象投影几何关系通过一组卷积运算转换为虚拟关系。VBP模块是基于虚拟CT扫描系统的下采样成像几何模型构建的,该模型被引入以更有效地将正弦图数据的嵌入特征反向投影到重建图像的一组语义表示中。IFNet使用上采样操作在反投影特征的基础上生成具有细微结构的重建图像,如图3(b)所示。
1) Sinogram Filtering Network(正弦滤波网络):我们在正弦域中部署了一个SFNet(图1)来执行特征转换,因为VBP模块与测量的正弦数据不匹配,这给测量的正弦数据直接输入VBP模块带来了障碍。为了简洁起见,我们使用符号 C × W × H C×W×H C×W×H来表示 W × H W×H W×H空间大小的特征图的 C C C通道。因此,测量的正弦图数据可以被视为大小为 N × 1152 × 736 N×1152×736 N×1152×736的特征图(由表1中的几何参数确定),其中 N N N是重建切片的数量。在这项工作中,我们将 N N N设置为3,以包括三个相邻的重建切片,并执行三维(3D)CT图像重建。在输入到由具有大小为 3 × 3 3×3 3×3的16个滤波核和零填充的2D卷积运算、层归一化[24]和带泄露随机线性整流函数[25]组成的第一块之后(卷积层→ LN层→ LReLU层),测量的正弦图数据被转换为大小为16×1152×736的特征图。然后,将来自第一卷积块的输出特征图进一步输入到下采样块中(图第3(a))。比例因子为2的下采样块通过在不丢失任何细节信息的情况下重新组合原始特征图中的像素,将大小为 C × W × H C×W×H C×W×H的特征图重塑为大小为 4 C × W / 2 × H / 2 4C×W/2×H/2 4C×W/2×H/2的四个下采样子特征图[26],[27]。下采样块还包含卷积层→ LN层→ LReLU层",类似于第一块,不同之处在于卷积运算是用64个滤波核执行的。因此,下采样块的输出大小为64×576×368。随后,特征图经过卷积残差块(CRB)序列。具体来说,每个CRB都由一个"卷积层→ LN层→ LReLU层→ 转化层→ LN层→ LReLU层"组成。此外,在执行第二个LReLU层[28]之前,建立快捷路径以对第一个卷积层的输入求和。两个卷积层都使用64个大小为3×3的滤波核和零填充来执行卷积运算。因此,沿着CRB,特征图的大小保持为64×576×368。SFNet的最后一层使用大小为1×1的4个滤波内核执行卷积运算,从而产生空间大小为4×576×368的特征图。值得注意的是,这里使用的所有卷积运算都是2D运算。
2) Virtual Back-Projection Module(虚拟反投影模块):基于虚拟CT扫描系统的反投影操作
A
′
T
A'^T
A′T构建的VBP模块(图1)用于从SFNet反投影输出特征图。由于DSigNet被设计用于重建多个切片,我们将
A
′
T
A'^T
A′T扩展到VBP模块的多通道操作。换句话说,SFNet输出的每个通道由VBP模块单独反向投影。从数学上讲,VBP模块可以表示如下:
μ
^
(
c
,
m
,
n
)
=
A
′
T
g
^
(
c
,
w
,
h
)
=
∑
Ω
g
^
(
c
,
w
,
h
)
∣
Ω
=
{
(
w
,
h
)
∣
x
m
′
cos
ϕ
h
′
+
y
n
′
sin
ϕ
h
′
=
s
w
′
}
(4)
\begin{aligned} \hat{\mu}(c,m,n)&=A'^T\hat{g}(c,w,h)\\ &=\sum_{\Omega}\hat{g}(c,w,h)\Big|_{\Omega=\{(w,h)|x'_m \cos\phi'_h+y'_n\sin\phi'_h=s'_w\}} \end{aligned} \tag{4}
μ^(c,m,n)=A′Tg^(c,w,h)=Ω∑g^(c,w,h)
Ω={(w,h)∣xm′cosϕh′+yn′sinϕh′=sw′}(4)
这里,
g
^
\hat{g}
g^表示VBP模块的输入(即SFNet的输出);
μ
^
\hat{\mu}
μ^表示输出特征图;
c
c
c是通道索引,这里,通道的数量被设置为4;
m
m
m和
n
n
n是输出特征图的空间索引,
w
w
w和
h
h
h是输入特征图的空索引;
x
′
、
φ
′
、
y
′
x'、\varphi'、y'
x′、φ′、y′和
s
′
s'
s′是虚拟CT扫描系统中的几何参数,其含义可参见公式(1)。对于4×576×368的输入特征图,VBP模块的输出特征图的大小因此为4×256×256。
值得注意的是,VBP模块不包含可调整的参数。然而,为了对所提出的DSigNet执行反向传播过程,需要计算VBP模块相对于其输入的梯度。根据公式(4),VBP模块中输出 μ ^ \hat{\mu} μ^相对于输入 g ^ \hat{g} g^的梯度可以写为: ∂ μ ^ ∂ g ^ = A ′ \frac{\partial\hat{\mu}}{\partial\hat{g}}=A' ∂g^∂μ^=A′。让我们将损失函数表示为 L \mathcal{L} L。因此,给定相对于输出的损失梯度 ∂ L ∂ μ ^ \frac{\partial\mathcal{L}}{\partial\hat{\mu}} ∂μ^∂L,相对于VBP模块的输入的损失梯度可以写成如下[29]:
∂
L
∂
g
^
(
c
,
w
,
h
)
=
∂
μ
^
∂
g
^
×
∂
L
∂
μ
^
=
∑
Ψ
∂
L
∂
μ
^
(
c
,
m
,
n
)
∣
Ψ
=
{
(
m
,
n
)
∣
x
m
′
cos
ϕ
h
′
+
y
n
′
sin
ϕ
h
′
=
s
w
′
}
(5)
\begin{aligned} \frac{\partial\mathcal{L}}{\partial\hat{g}(c,w,h)} &=\frac{\partial\hat{\mu}}{\partial\hat{g}}\times\frac{\partial\mathcal{L}}{\partial\hat{\mu}}\\ &=\sum_\mathfrak{\Psi}\frac{\partial\mathcal{L}}{\partial\hat{\mu}(c,m,n)}\Big|_{\Psi=\{(m,n)|x'_m \cos\phi'_h+y'_n\sin\phi'_h=s'_w\}}\\ \end{aligned} \tag{5}
∂g^(c,w,h)∂L=∂g^∂μ^×∂μ^∂L=Ψ∑∂μ^(c,m,n)∂L
Ψ={(m,n)∣xm′cosϕh′+yn′sinϕh′=sw′}(5)
3) Image Filtering Network(图像滤波网络):IFNet的架构与SFNet的架构相似。两个子网络之间也有一些差异,其中主要的差异是删除了第一个卷积块之后的下采样块,并在最终卷积操作之前添加了上采样块(图3(b)),如图1所示。上采样块是下采样块的逆运算,它通过重新组合原始特征图中的像素,在不丢失任何细节信息的情况下,将大小为
4
C
×
W
/
2
×
H
/
2
4C×W/2×H/2
4C×W/2×H/2的四个特征图重塑为大小为
C
×
W
×
H
C×W×H
C×W×H的上尺度特征图[26],[27]。此外,第一个卷积块的核数是64,并且对于最后的卷积运算是
N
N
N,这是重建切片的数量。IFNet中CRB的内核数量保持为64。输入特征图为4×256×256时,IFNet中的数据流为:4×256→ 64×256×256 → 16×512×512 → N×512×512。因此,尺寸为
N
×
512
×
512
N×512×512
N×512×512的最终特征图是重建图像。
III. EXPERIMENTAL SETUP(实验设置)
A. Dataset(数据集)
使用临床CT数据集2016 NIH AAPM Mayo Clinic低剂量CT Grand Challenge[30]对拟议的DSigNet进行评估,该数据集包含原始投影数据和使用Somatom Definition AS+CT扫描仪(西门子公司)获得的FBP重建。在该挑战数据集中,临床患者在正常剂量辐射(即120 kVp和200有效mAs)下从胸部到腹部进行扫描。原始投影数据是用螺旋成像几何结构获得的,可以将其重新固定为扇束成像几何结构[31]。表1的脚注中给出了重新固定扇束几何结构的相应成像参数。挑战数据集还包含四分之一剂量数据(即120 kVp和50有效mAs),这些数据是根据以下[32]将模拟量子和电子噪声添加到相应的正常剂量原始投影数据中获得的:
g
l
d
=
g
n
d
+
1
−
a
a
⋅
exp
(
g
n
d
)
N
0
n
d
⋅
ε
.
(6)
g_{ld}=g_{nd}+\sqrt{\frac{1-a}{a}\cdot\frac{\exp(g_{nd})}{N_{0nd}}}\cdot\varepsilon. \tag{6}
gld=gnd+a1−a⋅N0ndexp(gnd)⋅ε.(6)
这里,
g
l
d
g_{ld}
gld表示模拟的低剂量(ld)线积分(即正弦图数据);
g
n
d
g_{nd}
gnd表示正常剂量(nd)线积分;
N
0
n
d
N_{0nd}
N0nd表示正常剂量扫描条件下的入射X射线强度;
a
∈
[
0
,
1
]
a \in [0,1]
a∈[0,1]是剂量水平的比例因子,利用该比例因子,模拟低剂量扫描条件的相应入射X射线强度可以写成:
N
0
l
d
=
a
N
0
N
d
N_{0ld}=aN_{0Nd}
N0ld=aN0Nd。为了模拟四分之一剂量数据,将
a
a
a设置为1/4。此外,
ε
\varepsilon
ε是一个具有零均值和单位方差的正态分布随机过程。除了四分之一剂量数据外,我们还通过根据公式(6)将
a
a
a设置为1/6来模拟六分之一剂量的数据用于DSigNet的评估。
挑战数据集包含总共10名患者的数据。我们选择9名患者的数据进行DSigNet的训练,该训练包含4791个切片。剩余患者的数据(即560个切片)用于测试。
B. Implementation Details(实现细节)
我们使用PyTorch工具箱[33]实现了所提出的DSigNet。虽然两个子网络(即SFNet和IFNet)基本上都是用PyTorch工具箱中的一些非自操作构建的,但我们专门根据公式(4)和公式(5)为VBP模块构建了多通道反向投影操作。构造多通道反投影运算最重要的任务是在输入特征图和反投影特征图之间计算指数关系((即公式(4) Ω \Omega Ω的和公式(5)的 Ψ \Psi Ψ),通过满足 x m ′ cos ϕ h ′ + y n ′ sin ϕ h ′ = s w ′ x'_m \cos\phi'_h+y'_n\sin\phi'_h=s'_w xm′cosϕh′+yn′sinϕh′=sw′。使用 Ω \Omega Ω的 Ψ \Psi Ψ,我们可以快速反向投影输入特征图的每个通道,并使用CUDA实现计算相应的反向投影梯度。
对于所提出的DSigNet的训练,我们采用欧几里得损失函数来最小化模型重建图像
μ
∗
\mu^*
μ∗和正态剂量FBP重建图像\tilde{\mu}之间的均方误差(MSE),这被视为参考。损失函数如下所示:
MSE
(
μ
∗
,
μ
~
)
=
∣
∣
μ
∗
−
μ
~
∣
∣
2
2
.
(7)
\text{MSE}(\mu^*,\tilde{\mu})=||\mu^*-\tilde{\mu}||_2^2. \tag{7}
MSE(μ∗,μ~)=∣∣μ∗−μ~∣∣22.(7)
为了更新网络参数,采用RMSProp算法[34],学习率为2×10−5。相应的batch size和batch number 分别设置为1和1000。这意味着我们一次只使用一个图像来更新网络参数,并在一个epoch内更新1000次。此外,动量衰减和权重衰减分别设置为0.9和0.0。正常剂量和四分之一剂量重建的DSigNet模型的训练和验证损失曲线如图4所示。所有模型均使用一个具有11GB内存的NVIDIA GeForce RTX 2080ti图形处理单元(GPU)进行训练。
C. Evaluation Metrics(评估指标)
本文采用了三种常用的指标来评估重建图像的感知质量,包括特征相似度(FSIM)、峰值信噪比(PSNR)和归一化均方误差(NMSE)。FSIM用于测量模型重建和参考图像之间的感知一致性,其定义见原始论文[35]。PSNR和NMSE的定义如下:
P S N R ( μ ∗ , μ ~ ) = 10 × log 10 ( max ( μ ~ ) 2 M S E ( μ ∗ , μ ~ ) ) (8) \mathrm{PSNR}(\mu^*,\tilde{\mu})=10\times\log_{10}\left(\dfrac{\max(\tilde{\mu})^2}{\mathrm{MSE}(\mu^*,\tilde{\mu})}\right) \tag{8} PSNR(μ∗,μ~)=10×log10(MSE(μ∗,μ~)max(μ~)2)(8)
N M S E ( μ ∗ , μ ~ ) = M S E ( μ ∗ , μ ~ ) ∣ ∣ μ ~ ∣ ∣ 2 (9) \mathrm{NMSE}(\mu^{*},\tilde{\mu})=\frac{\mathrm{MSE}(\mu^{*},\tilde{\mu})}{||\tilde{\mu}||_{2}} \tag{9} NMSE(μ∗,μ~)=∣∣μ~∣∣2MSE(μ∗,μ~)(9)
这里, max ( μ ~ ) \max(\tilde{\mu}) max(μ~)是参考图像 μ ~ \tilde{\mu} μ~的最大值; μ ∗ μ^* μ∗是要评估的目标图像。 M S E ( μ ∗ , μ ~ ) \mathrm{MSE}(\mu^{*},\tilde{\mu}) MSE(μ∗,μ~)在公式(7)中定义。
D. Comparison Methods(比较方法)
为了评估所提出的DSigNet的性能,采用了四种不同的方法进行比较。具体而言,选择具有斜坡滤波器的FBP算法作为基线方法。此外,还采用了两种分别在正弦图和图像域中执行的去噪网络。为了确保公平性,两个去噪网络的网络架构是在所提出的DSigNet框架中基于SFNet和IFNet构建的(图1),去掉了下采样块和上采样块。相应的网络参数,包括核大小、核数量和网络层数,与SFNet和IFNet相同。此外,Zhang等人[36]首次提出的残差学习技术被用于两个去噪网络。为了区别于SFNet和IFNet,这两个去噪网络分别表示为SinNet和ImgNet。SinNet的去噪输出和ImgNet的低剂量输入都用FBP算法重建。第四种竞争方法是iRadonMAP[17],它也是一种用于CT重建的端到端重建网络。根据原始论文确定相应的网络设置。
IV. RESULTS(实验结果)
A. Analysis of Network Parameters(网络参数分析)
由于神经网络的计算成本与其网络结构的复杂性高度相关,我们必须找到最佳的网络结构来平衡其计算成本和图像质量。在这项工作中,通过扰动一个参数而其他参数是固定的,来评估所提出的DSigNet的四个网络参数,包括降尺度因子、重建切片的数量、SFNet和IFNet中的CRB的数量以及卷积运算中的滤波核的数量。我们通过分析四分之一剂量数据集的相应训练和验证损失曲线来选择每个网络参数,如图5所示。
具体来说,我们用1×1到8×8的比例因子来训练DSigNets,同时将重建切片的数量设置为1,将CRB的数量设置成9,将滤波核的数量设置到64。当比例因子设置为1×1时,VBP模块退化为传统的反投影操作。相应的损耗曲线如图5(a)所示。研究发现,缩放因子为1×1(表示为DSigNet(1×1))的DSigNet的损耗降低速度慢于具有其他缩放因子的DSigNets(除DSigNet(8×8)外),这意味着DSigNet可能需要更长的训练时间才能获得与具有其他缩放因数的DSigNets相当的性能。原因可能是,对于较小的比例因子,与不使用可逆下采样块的1×1相比,在使用可逆下取样块的训练过程中可以考虑更多的空间信息。如图所示,当CRB的数量大于9并且滤波内核的数量大于64时,性能的提高是有限的;因此,在我们最终的DSigNet模型中,这两个参数分别设置为9和64。
B. Analysis of Computational Cost(计算代价分析)
在本节中,我们评估了具有不同比例因子的对比方法和DSigNets的计算代价。对于训练阶段,根据经验为不同的模型设置时期的数量,以确保足够的收敛性。因此,ImgNet的培训大约需要一天时间;SinNet的培训大约需要两天时间;并且具有不同缩放因子的iRadonMAP和DSigNets的训练大约需要一周时间。很明显,SinNet和ImgNet的训练比iRadonMAP和DSigNets快得多。主要原因可能是SinNet和ImgNet都是用小补丁训练的,而iRadonMAP和DSigNets只能用全尺寸的正弦图数据和图像训练。然而,在实现阶段,具有适当比例因子的训练有素的DSigNet模型在正弦图域(即SinNet)或图像域(即ImgNet)中比FBP和神经网络的组合更有效,而不会严重降低图像质量,如第IV-D节和第IV-E节所示。我们统计了重建560个2D图像切片时不同模型的总时间成本,并观察了它们的GPU内存成本。值得注意的是,正弦图数据和重建图像进出存储器的加载时间被排除。相应的结果如表二所示。
如图所示,FBP方法在计算上非常高效(每个CT切片大约0.12秒)。然而,在低剂量扫描条件下,FBP方法的重建图像可能会被噪声引起的伪影严重污染。FBP和SinNet组合(即SinNet+FBP)、FBP和ImgNet组合(例如FBP+ImgNet)以及iRadonMAP重建一个CT切片的时间成本分别约为2.26、0.77和0.96秒。对于DSigNets,当比例因子从1×1增加到8×8时,时间成本会降低。具体而言,DSigNet(1×1)重建一个CT切片需要2.84秒,DSigNet(2×2)的相应时间为0.74秒。较小因素(即4×4、4×8和8×8)的时间成本减少了甚至超过2×2(DSigNet(4×4)约0.19秒,DSigNet(4×8)约0.09秒,DSigNet(8×8)约0.05秒)。这一结果表明,在正弦图或图像领域,具有适当比例因子的DSigNet模型在实际应用中比FBP和神经网络的组合更有效。
C. The Normal-Dose Reconstruction Results(正常剂量重建结果)
图6显示了DSigNet(2×2)和FBP算法在正常剂量扫描条件下的重建图像。第一行显示了FBP算法的三种重建情况,第二行显示了DSigNet(2×2)的相应结果。值得注意的是,所有图像都是从原始的正常剂量正弦图数据中直接重建的。因此,没有可用于比较这两种方法的参考图像。基于视觉观察,DSigNet(2×2)的图像质量与FBP算法的图像质量相似,这表明DSigNet模型中缩小的VBP模块在CT图像重建中的有效性,尽管它与生成原始正弦图数据的真实CT扫描系统不匹配。这一结果的一个可能原因是,在所提出的DSigNet的结构训练过程中,可以获得将真实对象投影几何关系转换为虚拟关系(由VBP模块描述)的有效先验知识。全尺寸图像的右下角显示了相应的放大图像,其中一些细微的差异用红色箭头表示。我们还在第二行的左下角包括放大的差异图像。
D. The Quarter-Dose Reconstruction Results(四分之一剂量重建结果)
在本节中,我们评估了所提出的DSigNet在四分之一剂量扫描条件下的图像质量。肺数据的不同方法的重建图像如图7所示。正常剂量扫描条件下的FBP重建图像如图7(a)所示,作为参考。图7(b)显示了在四分之一剂量扫描条件下的FBP重建图像。通过比较这两幅图像,我们可以观察到FBP算法在四分之一剂量扫描条件下会导致噪声引起的伪影。图7(c)显示了SinNet输出的FBP重建结果,这表明在正弦图域中使用去噪网络可以提高FBP算法的图像质量。ImgNet的输出如图7(d)所示。结果表明,与正弦图域中的SinNet相比,ImgNet可以进一步抑制图像域中的噪声引起的伪影。此外,iRadonMAP可以在一定程度上减少噪声引起的伪影,如图7(e)所示。研究发现,DSigNet(2×2)和DSigNet(4×4)的结果(即图7(f)和图7(g))作为对比方法,可以很好地抑制噪声引起的伪影和保留细节结构,而DSigNet的图像质量(4×8)和DSigNet的图像质量(8×8)(即图7(h)和图7(i))略有下降。结果表明,具有适当比例因子(例如4×4)的DSigNet模型仍然可以保持图像质量,同时减少计算时间。图8所示的腹部重建案例进一步证实了我们重建网络的有效性。
表三显示了四分之一剂量测试数据集的不同方法的总体定量性能(即PSNR、NMSE和FSIM),其中所有三个指标都以平均分数±标准差的形式给出。定量性能与图7和图8中的视觉性能大致一致。如图所示,FBP算法的性能最差,ImgNet算法的性能最好,而DSigNet(2×2)和DSigNet(4×4)可以实现与ImgNet和SinNet类似的定量性能。
E. The One-Sixth Dose Reconstruction Results(六分之一剂量重建结果)
我们进一步评估了所提出的DSigNet在低剂量扫描条件下的图像质量,即六分之一剂量数据。选定的骨盆数据重建如图9所示。如图所示,FBP算法的重建图像(即图9(b))存在严重的条纹伪影,导致难以识别结构细节。虽然SinNet的结果(即图9(c))仍然因条纹伪影的残差而退化,但ImgNet的视觉性能(即图第9(d)段)要好得多。此外,一些伪结构被引入到iRadonMAP的重建图像中(即,图9(e)),尽管它能够抑制条纹伪影。研究发现,具有相当大比例因子的DSigNet(例如,图9(g)中的DSigNet(4×4)、图9(h)中的DSigNet(4×8)和图9(i)中的DSigNet(8×8))在较低剂量扫描条件下仍然可以实现与ImgNet相当的性能。相应的定量性能显示在图9中每个重建图像的左下角。表四显示了六分之一剂量测试数据集的不同方法的总体定量性能结果,并与视觉性能一致。
V. DISCUSSION AND CONCLUSION(讨论与总结)
在本文中,我们为CT扫描系统的数据采集过程提出了一种新的下采样成像几何建模策略,并相应地构建了下采样反投影操作(即VBP模块)。然后将所提出的VBP模块合并到一个名为DSigNet的分层神经网络中,以执行CT图像重建。通过大量的临床患者数据验证了DSigNet的可行性,实验结果表明,该神经网络可以实现准确快速的CT图像重建。
这项工作的贡献是双重的。首先,在虚拟CT扫描系统的基于下采样点的模型的基础上提出了VBP模块,该模型是通过缩小生成测量正弦图数据的真实CT扫描系统来构建的。因此,VBP模块的尺寸可以比传统CT图像重建方法中的反投影操作的尺寸更简化。其次,我们构建了一个可行的用于CT图像重建的神经网络架构(即DSigNet),以包含VBP模块。由于VBP模块与测量的正弦图数据不匹配,因此VBP模块不能直接纳入传统的重建方法中。为了解决这个问题,在DSigNet中采用了下采样块及其逆运算(即上采样块),在不丢失任何细节信息的情况下重塑特征图以适应VBP模块。通过使用大量增强数据集进行训练,我们可以为所提出的神经网络获得一些有用的先验知识,以补偿轻量级VBP模块。现有的几何建模知识和学习的先验知识的结合确保了我们可以使用所提出的DSigNet实现快速准确的CT图像重建。
目前的工作也有潜在的局限性。第一个缺点是DSigNet模型的训练时间很长。由于一次只使用一个图像来更新网络参数,因此使用一个NVIDIA GeForce RTX 2080ti GPU有效训练DSigNet模型需要一周以上的时间。DSigNet的训练时间相对比图像后处理网络的训练时间长。这一结果的一个原因是,由于涉及前向和后向投影操作,我们的网络只能用全尺寸图像进行训练,而不是用小补丁进行训练,这与图像后处理网络形成了对比[37]。尽管DSigNet的训练时间相对较长,但由于在所提出的DSigNet中引入了简化的VBP模块和可逆下采样块,因此在正弦图或图像域中,相应的实现可以比FBP和神经网络的组合更快。
当前DSigNet的第二个限制是对不同几何参数的弱适应。在这项工作中,DSigNet模型在特定的成像几何结构下进行了训练(例如,西门子公司的Somatom Definition AS+CT扫描仪)。虽然训练有素的DSigNet模型可以对使用Somatom Definition AS+CT扫描仪获得的测量正弦图数据执行有希望的图像重建,但相同的DSigNet模型在等效地重建使用不同CT扫描仪获得的测得正弦图数据方面将面临困难。此外,如前所述,针对不同成像几何结构的全新DSigNet模型的训练时间将相对较长。为了解决这些问题,我们可以很容易地采用一个训练有素的DSigNet模型作为预训练模型,该模型适用于特定的成像几何结构,并且可以在以前的DSigNet模型的基础上通过微调来获得不同成像几何结构的DSigNet模型。通过这种方式,可以显著减少相应的训练时间,并可以实现DSigNet对不同成像几何参数的自适应。
当前的下采样成像几何建模策略更多地关注扇束成像几何,这是现代商业CT扫描仪常用的几何。我们认为,目前的工作足以说明所提出的快速准确CT图像重建下采样成像几何建模策略的可行性。然而,除了扇束成像几何结构外,锥形束和螺旋轨迹等其他成像几何结构在临床上也被广泛使用,值得关注。由于大量计算机内存的潜在消耗,这些成像几何结构的网络架构设计将是一个具有挑战性但有趣的主题。我们将把这些话题留给未来的研究。
在这项工作中,我们已经证明了所提出的DSigNet用于传统CT图像重建的可行性。DSigNet的网络架构也可以应用于其他CT应用,只需修改输入和输出层中的通道数量,并使用其他特定数据集进行训练。例如,通过一些必要的修订,我们可以使用所提出的DSigNet[38],[39]分别重建灌注CT的血液动力学参数图和光谱CT的基础材料图。这些有趣的话题将在我们未来的作品中进行研究。