Computer Methods in Biomechanics and Biomedical Engineering: Imaging & Visualization翻译

Anatomy aware-based 2.5D bronchoscope tracking for image-guided bronchoscopic navigation

摘要

医生在支气管镜检查过程中使用内窥镜导航系统,以减少在复杂的树状结构支气管中迷路的风险。大多数现有的导航系统基于从支气管镜追踪和/或深度学习中估计的相机姿态。然而,基于支气管镜追踪的方法存在追踪误差,且模型的预训练需要大量数据。本文通过采用图像域转换技术来改善支气管镜追踪过程,提升追踪性能。具体而言,我们的方案包括三个模块:RGB-D图像域转换模块、解剖结构分类模块和结构感知的支气管镜追踪模块。RGB-D图像域转换模块将真实的支气管镜(RB)图像转换为相应的虚拟支气管镜图像和深度图像。解剖结构分类模块将当前场景分为无结构和结构丰富两类。支气管镜追踪模块使用改进的视频-CT支气管镜追踪方法来估计相机姿态。实验结果表明,所提出的方法比当前最先进的支气管镜追踪方法具有更高的追踪精度。

1.引言

肺/支气管癌的死亡率每年占癌症死亡的很大比例(Rebecca et al. 2020)。为了降低如此高的死亡率,医生使用支气管镜在早期诊断肺癌。然而,由于支气管结构如树状且相机视野狭窄,在支气管镜检查过程中很难确定支气管镜在支气管中的位置。因此,支气管镜导航系统被用于为医生提供三维(3D)导航信息,以诊断肺部疾病(Ivan et al. 1998)。

自支气管镜导航概念提出以来,过去几十年中已有多种支气管镜导航系统被报道(Ivan et al. 1998; Mori et al. 2002; Schwarz et al. 2006; Shinohara et al. 2006; Wegner et al. 2007; Deguchi et al. 2009, 2012; Feuerstein et al. 2010; Luo et al. 2012; Merritt et al. 2013; Luo and Mori 2014; Shen et al. 2015, 2019; Jake et al. 2019; Khanmohammadi et al. 2020; Wang et al. 2020, 2021; Gil et al. 2020; Banach et al. 2021)。由于导航信息主要来源于支气管镜追踪的结果,我们根据支气管镜追踪的方式将现有的支气管镜导航系统分为三类:(1)基于3D-2D图像配准的;(2)基于传感器的;(3)基于其他类型追踪的。基于3D-2D图像配准的支气管镜追踪使用从CT体积生成的真实支气管镜(RB)图像和虚拟支气管镜(VB)图像来估计相机姿态(Mori et al. 2002; Deguchi et al. 2009; Luo et al. 2012; Merritt et al. 2013; Luo and Mori 2014; Shen et al. 2015)。相机姿态是通过最大化RB和VB图像之间的图像相似性来估计的(Mori et al. 2002)。Deguchi等人通过使用子块而非整幅图像改进了图像相似性计算(Deguchi et al. 2009)。子块是从存在特征结构(如褶皱、分叉等)的区域中选取的。Luo等人使用选定子块的更多特征信息(如亮度和对比度)来提高图像相似性计算(Luo and Mori 2014)。Merritt等人通过重新渲染RB图像而不是在VB图像上使用体积渲染技术来加速图像配准过程(Merritt et al. 2013)。Shen等人使用深度图像代替彩色图像进行图像相似性计算(Shen et al. 2015, 2019)。深度图像来自基于光影成形技术(Visentini-Scarzanella et al. 2012)或基于CycleGAN的图像域转换(Zhu et al. 2017)。Jake等人使用残差卷积神经网络(CNN)来定位CT体积中的支气管镜(Jake et al. 2019)。该网络用于估计彩色RB图像和渲染的VB图像的姿态。

为了减少术前(CT体积)和术中(RB)图像之间的差异(如器官变形或气泡)所导致的追踪误差,我们提出使用图像域转换技术来辅助基于3D-2D图像配准的支气管镜追踪。彩色RB图像被转换为包含虚拟VB图像和深度图像的图像对。同时,使用体积渲染技术生成包含VB图像和深度图像的候选VB-深度图像对。如果某一图像对与图像域转换生成的图像对具有最大相似性,则选择该VB-深度图像对的相机姿态作为最终相机姿态。我们使用图像域转换生成的深度图像来分类图像是否缺乏结构或结构丰富。根据分类结果,选择合适的图像相似性函数来计算图像相似性。最终,相机姿态被认为是能够最小化相似性函数的姿态。

2. 方法

提出的方法使用术前CT体积和RB图像作为输入。经过处理后,输出为每个RB图像的相机姿态。该方法包含三个模块:(1) RGB-D图像域转换;(2) 基于深度图像的解剖分类;(3) 支气管镜追踪。系统结构如图1所示。

2.1. RGB-D图像域转换

我们使用基于图像域转换的技术来处理RB图像上出现的多余纹理信息(如气泡和血液)。该技术涉及两个图像域,并定义了两个映射:G和F。它们用于将一个域中的图像转换为相反的图像域。训练过程中,使得转换后的图像外观尽可能接近目标域中的图像。

在这里插入图片描述

图1. 提议的导航系统结构。该系统包含三个模块:RGB-D图像域转换、基于深度图像的解剖分类和支气管镜追踪。RGB-D图像域转换模块使用预训练模型将RB图像转换为虚拟的RGB-D图像。基于深度图像的解剖分类模块将图像分类为两类:结构缺失和结构丰富。支气管镜追踪模块选择适当的相似性函数来计算支气管镜的图像相似性。

在我们的任务中,这两个图像域是RGB图像域和RGB-D图像域。RB图像域中的图像包含从RB视频中选取的RB图像。RGB-D图像域中的图像包含虚拟深度图像对。每对图像包括一张虚拟图像和一张深度图像。这些图像是通过使用虚拟内窥镜软件生成的(Mori et al. 2003)。我们将虚拟支气管镜摄像头沿支气管中心线移动,这模拟了支气管镜检查。在这个过程中,我们将生成的VB图像和深度图像保存为RGB-D域中的图像对。为了获得映射 G : R → ( RGB ) G: R \rightarrow (\text{RGB}) G:R(RGB)

2.2. 解剖学分析支气管镜图像

支气管镜图像中常见的解剖结构,如支气管开口和分叉,对图像相似性计算有很大影响。以前的研究表明,支气管镜跟踪在缺乏结构的区域表现较差。因此,区分RB图像是否具有丰富的结构信息是至关重要的。我们认为,如果支气管开口(BO)区域的数量超过一个,则图像具有丰富的结构信息;如果BO区域的数量为一个,则图像缺乏结构。图2中展示了几个示例图像。考虑到深度图像不包含气泡或血液等噪声,我们使用生成的深度图像来分析图像是否缺乏结构。我们使用文献中描述的BO计数技术(Wang et al. 2021)来分类图像是否缺乏结构。该方法将图像像素投影到两个方向(垂直和水平),并使用深度图像的强度轮廓来计数BO数量。如果找到的BO只有一个,则认为图像缺乏结构(图2中的左侧四张图像),如果找到的BO数量超过一个,则认为图像具有丰富的结构信息。如果图像缺乏结构,则标记为 C D = 0 C_D = 0 CD=0;如果图像具有丰富的结构信息,则标记为 C D = 1 C_D = 1 CD=1

2.3. 结构感知支气管镜跟踪

该模块的任务是找到RB图像的相机位姿 p p p。这是通过使用传统的图像配准方法来实现的(Ivan et al. 1998)。相机位姿 p p p 是一个向量 p = { R , t } p = \{R, t\} p={R,t},其中 R R R 是相机的方向, t t t 是相机在笛卡尔坐标系中的位置。相机位姿 p ^ \hat{p} p^ 通过以下方程估计:
p ^ = arg ⁡ min ⁡ p ∥ S ( V ^ , ϕ ( p , P ) ) + S ( D ^ , π ( p , P ) ) ∥ \hat{p} = \arg \min_p \left\| S(\hat{V}, \phi(p, P)) + S(\hat{D}, \pi(p, P)) \right\| p^=argpmin S(V^,ϕ(p,P))+S(D^,π(p,P))
其中, ϕ ( ⋅ ) \phi(\cdot) ϕ() 是体积渲染函数,通过相机位姿 p p p 将可见点 P P P 投影到2D图像平面(VB图像); π ( ⋅ ) \pi(\cdot) π() 是计算相机位置 p p p 和世界点 P P P(深度图)之间距离的函数。 P P P 是位于支气管内表面的3D可见点。 S 1 S_1 S1 S 2 S_2 S2 是相似度函数。优化过程使用Powell方法(Powell 1964)。该方法使用前一帧的相机位姿作为当前帧的初始位姿,并通过最小化方程 (1) 找到优化后的相机位姿。

2.3.1. 结构感知相似度函数选择

根据结构分类结果,我们选择不同的相似度函数来计算图像相似度。如方程 (2) 所示,如果图像具有丰富的结构,可以使用MoMSE函数(Deguchi et al. 2009)来估计相机位姿。如果图像缺乏结构,则构造一个包含MoMSE函数和Dice函数的新相似度函数来计算图像相似度。 α \alpha α β \beta β 是两个函数的权重,分别为:
S ( I 1 , I 2 ) = { S 1 : MoMSE ( I 1 , I 2 ) if  C D = 1 S 2 : α Dice ( I 1 , I 2 ) + β MoMSE ( I 1 , I 2 ) if  C D = 0 S(I_1, I_2) = \begin{cases} S_1: \text{MoMSE}(I_1, I_2) & \text{if } C_D = 1 \\ S_2: \alpha \text{Dice}(I_1, I_2) + \beta \text{MoMSE}(I_1, I_2) & \text{if } C_D = 0 \end{cases} S(I1,I2)={S1:MoMSE(I1,I2)S2:αDice(I1,I2)+βMoMSE(I1,I2)if CD=1if CD=0
为了计算两个图像之间的Dice得分,使用Otsu-based阈值对深度图像进行阈值处理(Otsu 1979)。我们仅使用深度图像来计算Dice函数。相机位姿通过最大化相似度函数来估计。

3. 实验

3.1. 实验设置

我们使用了几个活体胸部CT体积和相同患者的RB视频来验证所提方法。这些胸部CT体积是在支气管镜检查前几天由CT扫描仪(XVision, Toshiba Medical Systems, Tokyo)扫描的,RB视频是在支气管镜检查期间拍摄的(BF-240, Olympus, Tokyo)。我们使用了六个CT体积来生成VB图像和深度图像,用于RGB-D CycleGAN的训练。所有CT体积和RB视频都进行了匿名处理,本研究中使用的所有程序均获得了札幌南三条医院研究伦理委员会的批准(编号:R3–7) 和名古屋大学研究伦理委员会(编号:HC22–06)。这些案例的规格见表2(从案例一到案例六)。表1显示了用于训练CycleGAN的RB图像、VB图像和深度图像的数量。我们将这些图像调整为256 × 256像素,以用于RGB-D CycleGAN的训练。CycleGAN的迷你批次大小设置为10,训练轮数设置为3000。我们在CycleGAN中使用了Adam优化器,学习率为0.0002。

在这里插入图片描述图2. 两种类型图像的示例:缺乏结构和丰富结构。如果只观察到一个BO,则图像标记为缺乏结构(如左侧四张图像所示);如果观察到多个BO,则图像标记为丰富结构。

表1. 实验中使用的图像信息(展示了实验中涉及的CT体积的获取参数。案例一到六用于训练CycleGAN,案例七到十用于验证。)
在这里插入图片描述

表2. 实验中使用的图像信息(展示了实验中涉及的图像数量。案例一到六用于训练CycleGAN,案例七到十用于验证。)
在这里插入图片描述

3.2. 实验结果

3.2.1. 图像域转换的验证

我们挑选了几张由CycleGAN生成的VB图像和深度图像,以检查图像转换结果。这些图像见图3。我们在图中展示了两种情况的原始RB图像、生成的VB图像(标记为假VB图像)和生成的深度图像(标记为假深度图像)。如图所示,生成的VB图像和深度图像中泡沫和血迹消失了。

3.2.2. 跟踪精度的验证

我们实现了几种以前的方法以进行跟踪比较。这些方法包括:(1)CT视频配准基础的跟踪(Deguchi et al. 2009)(标记为RB-VB);(2)虚拟图像配准基础的跟踪(标记为VB-VB);(3)深度图像配准基础的跟踪(Shen et al. 2019)(标记为D-D)和提出的方法(标记为VD-VD)。为了进行定量评估,我们计算了RB图像和不同跟踪方法生成的虚拟图像之间的图像相似度(均方误差(MSE))(我们没有创建相机姿态的真实值,因为我们认为相机姿态可能不够准确)。表3显示了四种情况的平均MSE值。案例7的MSE值见图4。案例7中提出的方法(VD-VD)的平均MSE值为2532.2,而RB-VB方法为4428.8,VB-VB方法为3961.0,RB-VB方法为5713.5。

我们还使用跟踪到的相机姿态生成了VB图像进行比较。生成的VB图像见图5。提出的方法生成的VB图像显示出比其他方法更高的相似度。

4. 讨论

生成的VB图像和深度图像见图3,不同跟踪方法的比较见图4。

在这里插入图片描述
图3. 从CycleGAN生成的示例图像。 第一行是RB图像,第二行和第三行分别是生成的VB图像和深度图像。图像下方的文本格式为案例-帧号(例如,7–1788表示案例7中的第1788帧)。在生成的VB图像和深度图像中未观察到泡沫和血迹。

表3. 四个案例中RB图像与使用不同方法生成的VB图像之间的平均均方误差(MSE)值。 MSE值越小,方法越好。所提方法显示了最低的MSE值。
在这里插入图片描述

在这里插入图片描述
图4. 案例7中RB图像与使用不同方法跟踪结果生成的VB图像之间的MSE值。 所提方法显示了比其他方法更低的图像相似度。我们展示了第850帧的可视化图像。所提方法的VB图像显示了最佳的相似度。

图5. 使用不同方法跟踪结果生成的虚拟支气管镜图像。 通过比较这些图像,我们总结了所提方法的以下优点。

4.1. 更好的跟踪性能

所提方法显示了比其他方法更好的跟踪性能,我们认为这得益于减少的图像差异和使用了3D距离。我们使用这些跟踪方法的相机位姿展示了案例7的一些虚拟支气管镜图像(见图5)。我们发现所提方法(方法4)在其他方法(如第0800帧、第1000帧、第1100帧和第1150帧)中表现更佳。这些示例图像主要包括三个部分:支气管开口、病变区域和气管壁(第1100帧:支气管开口用蓝色标记,病变区域用黄色标记,其他部分用红色标记的是气管壁)。四种方法的气管壁差异不大。然而,所提方法(方法VD-VD)在病变区域的表现更好(所提方法中的病变区域比其他方法中的更靠近相机)。

4.2. 减少术前和术中图像之间的差异

所提方法在图像条件差的情况下显示了更好的跟踪结果。我们认为这是因为所提方法使用了VB深度图像,而不是使用RB图像进行图像相似度计算。通过图像域转换技术,术前和术中图像之间的大部分差异被消除了。

这四种方法都基于图像配准的支气管镜跟踪。然而,RB-VB方法主要考虑图像相似度,没有考虑术前和术中图像条件的复杂性。VB-VB方法使用了变换后的虚拟图像进行图像配准,从而减少了图像差异的影响。D-D方法在深度域上进行配准,进一步减少了图像差异的影响。然而,由于基于深度图像的配准不包含颜色信息,因此跟踪结果较差。所提方法在虚拟图像上进行配准,并使用深度图像判断解剖结构,因此跟踪结果更好(例如案例7中的第0850帧,所提方法的VB图像与RB图像的相似度较高)。VB-VB方法在没有深度信息的虚拟图像上进行图像配准,因此可以视为在不使用解剖分析的情况下对所提方法的消融研究。

4.3. 所提方法的缺点

所提方法的一个缺点是支气管镜跟踪耗时,与其他基于图像配准的支气管镜跟踪方法相同。我们使用笔记本电脑测量了1000帧的平均处理时间。CycleGAN的平均处理时间是…

这里是引用
在这里插入图片描述
图5. 使用不同跟踪方法的跟踪结果可视化的虚拟支气管镜图像。 我们展示了原始RB图像和使用不同跟踪结果生成的VB图像。我们在第1100帧上标出了支气管开口(蓝色区域)、病变区域(黄色区域)和气管壁(红色和蓝色之间的区域)。病变区域显示,所提方法在表现上优于其他方法。所提方法在以下两个方面优于其他方法:(1)RB图像和所提方法生成的VB图像中的多个区域具有更高的表现(例如第1100帧中的病变区域)。 (2)RB图像和所提方法的相机方向相似(例如第1050帧)。

(RGB-D图像域转换)在GPU上的处理时间约为0.005秒,支气管镜图像的解剖分析需要0.005秒,每帧结构感知支气管镜跟踪在CPU上的处理时间为0.56秒,这可能无法实现实时运行。因此,未来的工作包括减少处理时间。这可以通过在GPU上实现支气管镜跟踪部分来实现。

我们使用图像相似性而不是相机姿态进行定量评估,因为创建相机姿态的真实值很困难。未来,我们需要考虑一种生成真实值的方法,比如使用EM传感器捕获相机姿态。

5. 结论

我们使用图像域转换网络减少了不同图像类型的影响,并利用解剖结构辅助图像相似性计算。转换后的虚拟图像和深度图像在外观上与CT图像具有高度相似性。所提方法显示出比之前的方法更高的跟踪精度。未来需要进一步减少术前和术中图像之间的差异,例如实现变形仿真程序和生成更多导航信息,如分支名称。

  • 15
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

诸葛东_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值