DeepLesion: Automated Deep Mining, Categorization and Detection of Significant RadiologyImageFinding

摘要:抽取、分割和大规模标注放射图像数据是一项非常重要且有挑战的问题。对医学图片设计有效的计算范例而言,这也是一个瓶颈。但大量的临床标注(通常结合疾病图像的发现,并以箭头、横线、直径、分割等标注)已经收集好,储存在医院的PACS中。在本文中,作者挖掘并获取了一种主要类型的临床批注数据——在书签图像上批注的病灶直径——通过无监督和有监督的深卷积神经网络来学习一种有效的多类病灶检测器(CNN)。数据从4477个病人中的10825项研究中获得,包含33688标注好的放射图。每一张标注图,基于测量的直径来创建一个方框来包围住目标病灶。使用无监督学习来对数据进行聚类,获得伪病灶标签。接下来作者采取faster rcnn来检测多类别的病灶,忽略掉丢失的标注,一般而言,一张图只标注一个病灶,尽管会发现多个共存的病灶。综合挖掘、分类和检测框架是一个可扩展的、通用的或多用途的,并得到了一个建立在丰富的可追溯的医学数据基础上很有前景的经验结果CAD范式。作者进一步证明结合伪病灶标签,检测准确率会有显著提高。

一、背景

计算机辅助检测/诊断(CADe/CADx)是医学图像处理领域一个非常繁荣和成功的研究领域,已经开发了许多用于临床使用和筛选的商业软件包。近年来的研究进展(如皮肤病灶[3]的自动分类、肝脏病灶[1]的检测、肺栓塞[10])使得深度学习在CADe/CADx中的应用受到了越来越多的关注。深度学习,即基于卷积神经网络 (CNN)的算法,比传统的统计学习方法结合手工图像特征表现出明显的优势。然而,这些性能的提高往往是以需要大量的训练数据和高质量的标签为代价的。与通用计算机视觉任务,医学图像分析目前缺少实质性的、大规模的带注释的图像数据集(相当于ImageNet[2]和MS COCO [6]))主要有两个原因:(1)传统的方法收集图像标签从普通用户无法通过谷歌搜索+众包应用于医学图像领域,如医学图像注释reuqires广泛的临床专业知识;(2)观察者之间和观察者内部的显著差异(即使是训练有素、经验丰富的放射科医生之间)也经常发生,因此可能会影响对大量医学图像的可靠注释,尤其是考虑到放射科诊断任务的多样性。

目前的CADe/CADx方法通常针对一种特定类型的疾病或病变,如肺结节、结肠息肉或淋巴结[7]。然而,这种方法不同于放射科医生通常用于阅读医学图像研究和编写放射学报告的方法。可以观察到多种结果,而且常常是相关的。例如,肝转移可以扩散到局部淋巴结或其他身体部位。通过获得和保持相关临床发现的整体图像,放射科医生将能够作出更准确的诊断。然而,开发一个通用的或多用途的CAD框架,能够以一种无缝的方式检测多种疾病类型,仍然是一个很大的挑战。这一框架对于构建放射学自动诊断与推理系统至关重要。

在本文中,作者试图解决这些挑战,首先介绍一个新的大数据集的书签放射学图像,它适应多种类型的病变,数据集名为DeepLesion,由4477名患者的10825项研究中的33688张书签图像组成。此外,还集成了一种无监督的深度挖掘方法来计算用于数据库自注释的伪图像标签。肝脏病变/肿瘤、肺结节/肿瘤、腹部病变、胸部淋巴结等的分类,通过提出的算法来确认病灶来,代替放射科医生的标注。在获得数据集之后,我们开发了一种自动的病灶检测方法,利用发现的多个类别联合定位和分类病灶候选。最后,研究了非监督学习的伪病灶标签对深度CNN训练策略的影响,调查提出的多类病灶检测器的定量性能。

二、方法:

1.创建数据集deeplesion 。

2.在每张图片中使用一个非监督深度学习方法来获得可能的病灶种类(这里应该获得的是一个伪标签,并不是真标签),该方法包含一个迭代过程:深度图特征抽取,图片聚类,CNN模型再训练。

3.提出一个多类目标检测方法来检测多种类别的病灶。

2.1医生们在平常看图像的过程中,会用箭头、横线、直径或分割等将病灶标记下来用来形成报告,作者说他们的系统PACS已经收集了二三十年的医生的标记。在这里,作者只采用CT图像中的一种标记:病灶直径。每对直径包括最长的,以及一个与这个线垂直的最长径。作者从系统中抽取直径并将其转化为坐标{(x11; y11); (x12; y12) (x21; y21); (x22; y22)}.  建一个方框,要让方框可以将病灶涵盖住,在每个方向上扩大20个像素:(xmin-20; ymin-20; xmax - xmin + 40; ymax - ymin + 40) where xmin = Min(x11; x12; x21; x22) and xmax = Max(x11; x12; x21; x22), 对y也做同样的处理。这样就从4477个病人的10825个图像中得到了33688个带有标签的病灶数据,每个病灶外都有一个矩形框包裹住它。

2.2非监督病灶分类

病灶数据集包括几种放射医师平常关注的几种病灶,包括肺结节\病变、淋巴结、肝\肾病变,但对每一种病灶都没有细致精确的分类标签。deeplab数据非常大并且综合,因此让放射医师标注标签费时费力。本文作者对于每个测量的病灶没有提供详细的精确分类标签,提出一个闭合的深度优化过程种类,用于自动分类,这能生成视觉连贯的且临床语义图像聚类。假设:优化过程将收敛到更精确的标签,可以得到一个更佳的CNN模型。

切割图方块,调整大小,对每个病灶块用训练好的ImageNet pre-trained-VGG-16网络来抽取深度CNN特征。通过模型选择确定k,然后使用k-means来给深度特征编码的病灶块来聚类。接着使用从k-means获得的新图像标签对当前的VGG-16进行微调,这样对下次迭代产生更新的CNN。终止条件是:达到满意的收敛标准。

使用深度CNN特征来编码病灶块:使用VGG16-CNN结构来编码病灶块及CNN更新。特征抽取使用全连接层的VGG16的FC7。因为他们能够捕捉任何病变的视觉外观和空间布局,以及周围的环境。

以矩形聚类与分类中的收敛性:经历几次聚类迭代优化后,假定新产生的聚类收敛oracle标签类。收敛标准:纯度与归一化互信息量。聚类结果中两次相近的迭代来计算经验相似得分。如果相似得分超过一个临界值,通过聚类驱动分类方法得到了最优的病灶斑块分类。每次迭代都打乱病灶块,将数据分为75%训练,10%验证,15%检验。

三、多种类病灶检测

图2.病灶检测算法流程图,带标签的临床注释提供了病灶的真实边界框,用于训练检测器。检测中虚线框和实线框分别表示真实标注和预测的病灶检测。

使用矩形方框,及聚类产生的伪类标签,从Faster RCNN的方法中构造一个多类病灶检测器。输入的图经过卷积与池化产生特征图。区域建议网络(RPN)分解特征图,并给出可能的病灶区。其实它是在特征图的每个位置中的一个固定锚点集合中来估计一个目标的概率。锚点的多少与位置可以通过矩形回归来微调。然后区域的概率与特征图传给一个感兴趣区域池化层,将每个健议中的特征图重新采样到固定大小,作者使用7*7。对每个病灶将特征图传给几个全连接层来预测置信分数,然后运行另一个边界框回归来进一步更新。非最大抑制应用在特征图中。最后,系统会给出五个具有最高置信度的检测值(0.5ImageNet pretrained VGG-16Faster RCNN的主干。去除VGG-16中的最后一层池层(pool4)可以提高feature map的分辨率,增加阳性样本的采样率(包含病变的候选区域)

结果:

注:按本人自己理解写的,转载请注明出处,若有错误,欢迎指出。

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值