数据解读|基于卷积神经网络的鼻骨骨折诊断
痛点
本研究旨在评估深度学习 (DL) 算法在 X 光片上诊断鼻骨骨折的性能,并将其与经验丰富的放射科医生进行比较。内部和外部测试集的 DL 算法的 AUC 分别为 0.85(95% CI,0.83-0.86)和 0.86(95% CI,0.78-0.93),外部测试集的两位放射科医生的值为 0.80(95% CI,0.73-0.87)和 0.75(95% CI,0.68-0.82)。因此,DL 算法显着超过了放射科医生 2(P = 0.021) 但与放射科医生 1 ( P = 0.142) 没有显着差异。DL 算法的灵敏度和特异性分别为 83.1%(95% CI,71.2-93.2%)和 83.7%(95% CI,69.8-93.0%)。DL 算法在诊断 X 光片上的鼻骨骨折方面与经验丰富的放射科医生的表现相当。
应用场景
人工智能在医学领域里的应用
简介
鼻骨骨折是面部骨骼中最常见的骨折,占所有骨折的 50% 。此外,它们是总体骨折中第三常见的骨折。鼻骨的解剖结构——面部的薄而突出的结构——使其特别容易骨折。鼻骨骨折的原因多种多样,包括运动损伤、打架、交通事故和跌倒。鼻骨骨折的并发症严重程度各不相同,从轻微的形式(包括鼻中隔偏曲、鼻塞和嗅觉障碍)到更严重的并发症,例如脑脊液鼻漏。仔细的身体检查、临床检查和影像学检查主要用于诊断鼻骨骨折。诊断鼻骨骨折的放射学方法包括高分辨率计算机断层扫描 (CT)、平片和超声检查。其中,CT 显示出最高的诊断准确性,并且被发现在检测其他相关损伤方面也具有优势。
然而,普通鼻部 X 线摄影仍然显示出相当大的可靠性,灵敏度约为 80% 。考虑到低辐射暴露的好处及其成本效益和可及性,X 线平片仍然是筛查单纯性鼻骨骨折的初始诊断工具。深度学习 (DL) 是机器学习的一个专门子集,是一种多层信息处理技术。DL 系统的能力包括从原始输入中自提取数据和自学习,并且基于 DL 的应用程序正在各个医学领域中出现。
在最近的研究中,DL 的一个特定子类别,即卷积神经网络 (CNN),在各种放射学子专业中显示出可靠和准确的性能;因此,他们有望在未来显示出改善患者预后的巨大潜力. 在医学成像中,DL 已应用于各种疾病的诊断、分类和结果预测或生存;应用包括,例如,根据 CT 图像进行脂肪肝疾病风险分层、根据 MRI 诊断前列腺癌,以及使用 CT 预测急性呼吸系统疾病的预后。由于传统 X 射线照相术用于各种医学亚专业,因此许多研究报告了 DL 算法,该算法检测 X 射线照片上的异常,并与放射科医生相比验证了它们的诊断性能。
例如,深度学习算法在胸片解读、髋部骨折检测、烟雾病诊断、鼻窦炎肱骨近端骨折、膝骨关节炎、小儿颅骨和发育性髋关节发育不良。此外,最近的一项研究探讨了 DL 在 CT 扫描中诊断鼻骨折的潜力。然而,尚未研究使用传统射线照相术进行基于 DL 的鼻骨骨折检测。因此,在这里,我们旨在设计一种基于 CNN 的算法来检测平片上的鼻骨骨折,并将其诊断性能与放射科医生的诊断性能进行比较。
数据集
2009 年 1 月至 2020 年 10 月期间,机构对 6713 名成年患者的 9596 张鼻部 X 光片进行了疑似鼻骨骨折检查。所有鼻骨 X 光片均以匿名 DICOM 格式从机构图片存档和通信系统导出。数据被导出并由一名(盲法)第 3 年放射科住院医师在培训中进行初步审查。确定鼻骨骨折的标准是基于可用的手术结果或从电子病历中获得的临床/放射学共识。双侧检查鼻 X 光片,排除只有单侧(左或右)鼻 X 光片的患者记录(n = 657)。然后将其余患者随机分为训练组、验证组和内部测试组。
方法
由经验丰富的放射科医生进行音像评估两名受过专科培训的放射科医师(均为盲法,分别在头颈部诊断放射学领域拥有 6 年和 9 年的经验)独立检查鼻部 X 光片并将其分类为骨折或正常骨骼。两位放射科医生都会定期解读鼻骨 X 光片。如果存在任何鼻骨骨折的放射学特征,包括骨折线、移位、凹陷、畸形和成角,则诊断为骨折。图像预处理在 DL 模型训练之前,所有图像都按以下方式进行预处理。首先,通过调整图像比例调整图像大小,短轴长度设置为 512 像素。然后执行强度归一化以获得介于 0 和 1 之间的像素值。
训练深度学习算法我们训练了一个 DL 模型来对鼻部 X 光片进行分类。每个患者的两个侧视图用作模型输入,并通过二元分类确定鼻骨骨折的存在。首先,为了同时利用两个视图的特征,使用 EfficientNet-B7 模型主干的参数通过加载 ImageNet 预训练模型进行初始化。每个CNN模型的输入图像大小为448×448像素,提取了2560个成像特征。
然后,使用从两个 CNN 模型路径中提取的串联 5120 个特征作为输入,使用多层感知器模型执行二元分类。多层感知器模型由三个隐藏层组成,每个隐藏层的隐藏单元数量减少一半。为了减少训练数据的过度拟合,在模型训练过程中应用了各种随机变换,包括随机翻转、旋转、仿射变换、强度反转、添加随机噪声和随机裁剪。使用交叉熵作为代价函数,使用AdamW算法更新模型参数学习率为0.0001,权重衰减系数为0.001。
在交叉熵损失函数中使用0.5的截止值,以便根据预测是否达到截止值来更新参数。对于每个 epoch,计算验证集的 AUC,并选择具有最佳 AUC 结果的 epoch 中的参数(我们训练过程中总共 256 个 epoch 中的第 140 个 epoch)。
训练过程完成后,在测试集的推断中,通过对两个结果进行平均来确定包含鼻骨骨折的图像的概率,改变两个视图的顺序。确定有助于模型决策的关键区域,梯度加权类激活映射 (Grad-CAM) 应用于每个视图的 CNN 模型的最后一个卷积层。我们回顾了外部数据集的 Grad-CAM 结果,以观察 Grad-CAM 是否正确强调了鼻骨区域。下图 总结了本研究中使用的整体 DL 模型架构。
统计分析
分别使用单向方差分析和 Pearson 卡方检验比较训练、验证和内部/外部测试队列中的连续变量和分类变量。计算 Cohen 的 κ 以评估 DL 模型和两位放射科医生之间的评估者间一致性。如果 κ 为 0.01–0.20,则一致性水平被确定为无到轻微;在 κ = 0.21–0.40 时公平;适度在 0.41–0.60;实质性为 0.61–0.80;在 0.81–1.00 时几乎完美。为了评估 DL 模型的诊断性能,计算了内部和外部测试集的 AUC。使用 Youden 指数确定 ROC 曲线的最佳阈值。使用 DeLong 方法比较 DL 模型和放射科医生的 AUC . 敏感性、特异性和准确性的置信区间来自使用“pROC”R 包的 2000 次引导复制。所有统计分析均使用 R 统计软件(v. 4.1.2,奥地利维也纳)和 Stata(v. 16.1,美国德克萨斯州大学城)进行。小于 0.05的双侧P值被认为具有统计学意义。
结果
深度学习模型和放射科医生的诊断性能在内部测试集上,DL 模型表现出出色的诊断性能,AUC 为 0.931(95% CI,0.915-0.944),灵敏度为 82.2%(95% CI,78.3-86.5%),特异性为 89.6%(95% CI,85.2–92.4%),准确度为 85.9%(95% CI,84–87.8%)。下图为深度学习在a内部测试集和b与放射科医师的外部测试集中的接收器操作特性曲线。
诊断性能指标的比较DL 模型的 AUC 显着高于放射科医生 2(0.857 对 0.749;P = 0.021),但与放射科医生 1 没有显着差异(0.857 对 0.799;P = 0.142)。使用 Grad-CAM 热图正确诊断的鼻骨骨折的示例 X 光片如图 2所示. 大多数患者 (n = 90) 的两个视图的热图中都正确突出显示了鼻骨区域。对于其余 12 名受试者中的 9 名,鼻骨仅在一个视图中突出显示,而在三名患者的两个视图中均未突出显示鼻骨。此外,图 3显示了正常鼻部X光片被DL模型错误诊断为骨折的例子。
结论和讨论
目前的研究训练并验证了一个基于 CNN 的 DL 模型,用于使用双侧平片诊断鼻骨骨折。DL 模型在内部 (AUC: 0.931) 和外部 (AUC: 0.857) 测试集上均表现出出色的诊断性能。此外,DL 模型显示出与经验丰富的放射科医生相当的诊断性能(AUC:0.749–0.799)。
关于比较 DL 和放射科医师在常规 X 光片上的诊断性能的最新研究,DL 模型已被证明在诊断上颌骨和鼻窦炎方面优于放射科医师,并且已证明其对小儿髁上骨折和发育不良的诊断性能相当臀部以及一般胸片解读。然而,重要的是要注意,深度学习模型与放射科医生相当的性能并不会减少人类从业者对批判性评估的需求,包括对患者临床信息的全面审查;相反,它应该被视为一种免费的诊断辅助工具。
之前的一项研究发现,只有 82% 的鼻骨骨折可以在 X 线平片上识别。在这项研究中,DL 模型的灵敏度为 83.1%,表明该成像模式具有近乎完美的诊断性能。虽然具有薄层厚度重建的 CT 图像是诊断鼻骨骨折的首选成像方式,常规射线照相具有辐射暴露较低、图像采集速度快、成本效益高等优点。虽然传统放射成像不是诊断鼻骨骨折最准确的成像方式,但 DL 辅助放射成像将有助于加快鼻骨骨折的诊断并解决临床实践中的资源短缺问题。
然而,由于传统 X 线片的诊断能力固有的局限性,鼻骨骨折的明确诊断依赖于 CT 和传统 X 线片。当前研究的主要优势在于我们的 DL 模型是在均衡的真实世界临床数据集上训练的,并且骨折病例的比例几乎等于不同队列中的正常发生率 (40-50%)。考虑到在不平衡训练集上训练的 DL 模型更容易受到偏差的影响,并且更有可能做出有利于多数类的决策,这一点尤为重要 。此外,我们将 DL 模型的诊断性能与使用地理上独立的数据集的放射科医生的诊断性能进行了比较,这增加了我们结果的普遍性。
此外,我们应用 Grad-CAM 将热图叠加到射线照片上,以提高 DL 模型的透明度和可解释性。事实上,热图的强度主要集中在鼻部区域,这表明该模型在识别骨折时能够正确识别鼻部区域,即使存在皮肤褶皱或面罩金属丝等伪影。
参考
1.Hwang, K., You, S. H., Kim, S. G. & Lee, S. I. Analysis of nasal bone fractures; A six-year study of 503 patients. J. Craniofac. Surg. 17, 261–264 (2006).2.Murray, J. A., Maran, A. G., Mackenzie, I. J. & Raab, G. Open v closed reduction of the fractured nose. Arch. Otolaryngol. 110, 797–802 (1984).3.Hwang, K., Ki, S. J. & Ko, S. H. Etiology of nasal bone fractures. J. Craniofac. Surg. 28, 785–788 (2017).4. Hwang, K., Yeom, S. H. & Hwang, S. H. Complications of nasal bone fractures. J. Craniofac. Surg. 28, 803–805 (2017).5. Hoffmann, J. F. An algorithm for the initial management of nasal trauma. Facial Plast. Surg. 31, 183–193 (2015).