本文是论文《Dual-Stream Pyramid Registration Network》的阅读笔记。
文章提出了一个名为 Dual-PRNet 的双流金字塔配准网络(Dual-Stream Pyramid Registration Network),它可以实现无监督的3D医学图像配准。文章的贡献主要有两个:
- 设计了一个双流的3D编码器-解码器网络来分别计算 fixed image 和 moving image 的特征金字塔(由从小到大的特征图组成的类似金字塔形状的);
- 提出了一种金字塔配准模型,它可以从解码器产生的特征图直接产生多个不同尺度的配准场(形变场)。
3D 医学图像配准任务可以看作是预测一个形变场
ϕ
\phi
ϕ,以使得浮动图像
M
M
M 经过该形变场变形后产生的图像
W
=
M
∘
ϕ
W=M\circ\phi
W=M∘ϕ 尽可能与固定图像
F
F
F 相对齐,该过程可以被表示下式:
Φ
^
=
arg
min
Φ
L
(
F
,
M
,
Φ
)
,
L
(
F
,
M
,
Φ
)
=
L
sim
(
F
,
M
∘
Φ
)
+
λ
L
smooth
(
Φ
)
\hat{\Phi}=\arg \min _{\Phi} \mathcal{L}(F, M, \Phi), \quad \mathcal{L}(F, M, \Phi)=\mathcal{L}_{\operatorname{sim}}(F, M \circ \Phi)+\lambda \mathcal{L}_{\text {smooth}}(\Phi)
Φ^=argΦminL(F,M,Φ),L(F,M,Φ)=Lsim(F,M∘Φ)+λLsmooth(Φ)
其中,
L
s
i
m
\mathcal{L}_{sim}
Lsim 是固定图像
F
F
F 和变形后的图像
M
∘
ϕ
M\circ\phi
M∘ϕ 之间的相似度度量,
L
s
m
o
o
t
h
\mathcal{L}_{smooth}
Lsmooth 是让形变场
ϕ
\phi
ϕ 保持平衡的正则约束,上式也是 VoxelMorph 所采用的损失函数形式。
Dual-PRNet 可以看作是 VoxelMorph 的一种改进,VoxelMorph 只通过CNN产生的最后一个特征图计算单个形变场,这限制了它处理大尺度形变的能力,Dual-PRNet 可以预测多个不同分辨率的形变场。
上图是网络的结构示意图,双流的编码器-解码器网络指的就是图中分别对固定图像和浮动图像进行处理的两个类似于 U-Net 的网络(图中黄色和蓝色的部分),而 VoxelMorph 是将固定图像和浮动图像作为两个通道输入到一个类似于 U-Net 的网络中,是单流的。而金字塔配准模型是指的以上两个网络的中间部分,可以发现两个类似于 U-Net 的网络的解码器部分和传统的有所不同。在具体操作时,会先将解码器当前层产生的形变场进行两倍的上采样,然后作用在下一层的浮动图像上,得到变形后的图像,再与下一层图像一起做
3
×
3
×
3
3\times3\times3
3×3×3 的卷积操作,形成下一层的形变场。重复该过程,就得到了不同分辨率的形变场,最后一层的输出结果就是最终的形变场。该过程可以用下式表示:
Φ
i
=
C
i
3
×
3
×
3
(
P
i
M
∘
u
(
Φ
i
−
1
)
,
P
i
F
)
\Phi_{i}=C_{i}^{3 \times 3 \times 3}\left(P_{i}^{M} \circ u\left(\Phi_{i-1}\right), P_{i}^{F}\right)
Φi=Ci3×3×3(PiM∘u(Φi−1),PiF)
其中
u
(
ϕ
i
−
1
)
u(\phi_{i-1})
u(ϕi−1) 是第
i
−
1
i-1
i−1 层的上采样操作,
C
i
3
×
3
×
3
C_i^{3\times3\times3}
Ci3×3×3 是3D卷积操作,
P
i
M
P_i^M
PiM 和
P
i
F
P_i^F
PiF 分别是浮动图像和固定图像的体素。
此外,文章使用负的局部互相关(NLCC)作为衡量图像相似度的损失度量,而平滑损失和 VoxelMorph 的相同。文章在 LPBA40 和 Mindboggle101 两个数据集上做了实验,以下是配准的结果。上边一行是产生的5个不同分辨率的形变场,下面一行从左到右分别是浮动图像、根据形变场得到的5个变形图像和固定图像。