A survey on deep learning in medical image analysis(2017)
摘要
深度学习算法,特别是卷积网络,已迅速成为分析医学图像的首选方法。 本文回顾了与医学图像分析有关的主要深度学习概念,并总结了对该领域的300多项贡献,其中大部分是在去年发表的。 我们调查了深度学习在图像分类,对象检测,分割,配准和其他任务中的使用。 简要概述了每个应用领域的研究:神经,视网膜,肺,数字病理,乳腺,心脏,腹部,肌肉骨骼。 最后,我们总结了当前的最新技术,对开放挑战和未来研究方向进行了严格的讨论。
1. 引言
从可以将医学图像扫描并加载到计算机中开始,研究人员便建立了用于自动分析的系统。 最初,从1970年代到1990年代,医学图像分析是通过依次应用低级像素处理(边缘和线性检测滤波器,区域生长)和数学建模(拟合线,圆和椭圆)进行的,以构建基于复合规则的解决特定任务的系统。 与专家系统有一个类比,其中有许多if-then-else语句在同一时期在人工智能中很流行,这些专家系统被描述为GOFAI(良好的老式人工智能)(Haugeland,1985),并且通常很脆弱,类似于基于规则的图像处理系统。
在1990年代末,使用训练数据开发系统的监督技术在医学图像分析中越来越受欢迎。示例包括活动形状模型(用于分割),图集方法(其中适合于新数据的图集形成训练数据)以及特征提取和统计分类器的使用(用于计算机辅助检测和诊断)的概念。这种模式识别或机器学习方法仍然非常流行,并构成了许多成功的商用医学图像分析系统的基础。因此,我们已经看到了从完全由人设计的系统向由计算机使用提取特征向量的示例数据训练的系统的转变。计算机算法确定高维特征空间中的最佳决策边界。设计此类系统的关键步骤是从图像中提取判别特征。这个过程仍然是由人类研究人员完成的,因此,有人谈到具有手工功能的系统。
在1990年代末,使用训练数据开发系统的监督技术在医学图像分析中越来越受欢迎。示例包括活动形状模型(active shape models)(用于分割),图集方法(其中适合于新数据的图集形成训练数据)以及特征提取和统计分类器的使用(用于计算机辅助检测和诊断)的概念。这种模式识别或机器学习方法仍然非常流行,并构成了许多成功的商用医学图像分析系统的基础。因此,我们已经看到了从完全由人设计的系统向由计算机使用提取特征向量的示例数据训练的系统的转变。计算机算法确定高维特征空间中的最佳决策边界。设计此类系统的关键步骤是从图像中提取判别特征。这个过程仍然是由人类研究人员完成的,因此,这个系统具有手工提取的特征。
合乎逻辑的下一步是让计算机学习可以最佳地代表当前所研究问题的数据的功能。这个概念是许多深度学习算法的基础:由许多层组成的模型(网络),这些层将输入数据(例如图像)转换为输出(例如疾病存在/不存在),同时学习越来越高级的功能。迄今为止,最成功的图像分析模型是卷积神经网络(CNN)。 CNN包含许多层,这些层会在较小程度上使用卷积滤波器转换其输入。自从70年代末(福岛,1980年)以来,就开始进行CNN的工作,Lo等人在1995年已经将它们应用于医学图像分析。 (1995)。他们看到了LeNet中第一个成功的实际应用程序(LeCun等,1998),用于手写数字识别。尽管取得了这些最初的成功,但在开发出各种有效地训练深度网络的新技术并在核心计算系统方面取得了进步之前,CNN并没有得到很大的发展。分水岭是Krizhevsky等人在2012年12月举行的ImageNet挑战上的贡献,他们所提出的CNN(AlexNet)取得了很大的成功。在随后的几年中,使用与AlexNet相关但更深的网络架构,取得了进一步的进步(Russakovsky等,2014)。在计算机视觉中,深度卷积网络现已成为首选技术。
医学图像分析界已经注意到了这些关键发展。 但是,从使用手工特征的系统到从数据中学习特征的系统的过渡是逐渐的。 在AlexNet突破之前,许多用于学习特征的技术都非常流行,Bengio等人(2013年)对这些技术进行了全面的总结。 它们包括主成分分析,图像补丁聚类,字典方法等等。 Bengio等人(2013年)在标题为“深度模型的全局训练”的部分中,才在他们综述的最后介绍了端到端训练的CNN。 在本次调查中,我们特别关注这种深度模型,并且不包括已应用于医学图像的更传统的特征学习方法。 对于深度学习在健康信息学中的应用的更广泛的综述,我们参考了Ravi等人的综述(2017),其中简要介绍了医学图像分析。
深度学习在医学图像分析中的应用首先开始出现在研讨会和会议上,然后出现在期刊上。 在2015年和2016年,论文数量迅速增长。如图1所示。该主题现在在主要会议上占主导地位,并且在2016年5月发表了IEEE Transaction on Medical Imaging上的第一期特刊(Greenspan等,2016)。
Shen等人(2017)发表了一篇关于将深度学习应用于医学图像分析的专门综述。 尽管它们涉及大量工作,但我们感到该领域的重要领域没有代表。 举一个例子,没有涉及视网膜图像分析的工作。 我们进行综述的动机是从应用程序和方法论驱动的角度提供医学成像所有领域(几乎)的全面概述。 它还包括所有出版物的概述表,读者可以用来快速评估该领域。 最后,我们利用自己在将深度学习方法应用于医学图像分析中的经验,为读者提供了专门的讨论部分,涵盖了最新的,开放的挑战以及对研究方向和技术的概述,这将在未来非常重要。
这项调查包括300多篇论文,其中大多数是最新的,涉及深度学习在医学图像分析中的广泛应用。为了确定相关的贡献,请查询PubMed以获取标题或摘要中包含(“卷积”或“深度学习”)的论文。在ArXiv上搜索了提及与医学影像有关的一组术语中的一个的论文。此外,还根据论文标题搜索了MICCAI(包括研讨会),SPIE,ISBI和EMBC的会议记录。我们检查了所有选定论文中的参考文献并咨询了同事。我们排除了没有报告医学图像数据结果或仅使用具有手工特征的标准前馈神经网络的论文。如果在多个出版物中报告了重叠的工作,则仅包括被认为最重要的出版物。我们希望使用搜索字词涵盖涵盖深度学习方法的大部分(如果不是全部)工作。所包含论文的最新更新是在2017年2月1日。附录更详细地描述了搜索过程。
总而言之,本次调查旨在:
- 表明深度学习技术已渗透到医学图像分析的整个领域;
- 确定成功将深度学习应用于医学成像任务的挑战;
- 强调解决或避免这些挑战的具体贡献。
本调查的其余部分结构如下。 在第2节中,我们介绍了主要的深度学习技术,这些技术已用于医学图像分析,并且在整个调查中都涉及到。 第三部分描述了深度学习对医学图像分析中规范任务的贡献:分类,检测,分割,配准,检索,图像生成和增强。 第4节讨论了在不同的应用领域中获得的结果和面临的挑战:神经,眼科,肺部,数字病理学和细胞成像,乳腺,心脏,腹部,肌肉骨骼和其他杂项应用。 最后,我们进行了总结,重要的讨论和对未来研究的展望。
5.讨论
5.1 总览
从本次调查回顾的308篇论文中,很明显,深度学习已遍及医学图像分析的各个方面。这种情况发生得非常快:2016年或2017年的第一个月发表了242篇论文,其中绝大多数是稿件。涉及了各种深度架构。最早的研究使用预训练的CNN作为特征提取器。这些经过预先训练的网络可以简单地下载并直接应用于任何医学图像,这一事实促进了它们的使用。而且,采用这种方法,可以简单地扩展基于手工特征的现有系统。然而,在过去的两年中,我们已经看到训练有素的端到端CNN已成为医学成像解释的首选方法(见图1)。此类CNN通常集成到现有的图像分析管道中,并取代了传统的手工机器学习方法。此方法是本次调查中最多的论文所采用的方法,我们可以自信地说这是当前的标准做法。
5.2 深度学习方法成功的关键方面
在阅读了这么多的论文之后,人们希望能够提炼出适合每个单独任务和应用领域的完美的深度学习方法和架构。虽然卷积神经网络(及其衍生物)目前在大多数医学图像分析竞赛中显然是表现最好的,但我们可以得出的一个显著结论是,确切的体系结构并不是获得良好解决方案的最重要决定因素。我们已经看到,例如在Kaggle糖尿病视网膜病挑战中,许多研究人员使用完全相同的架构、相同类型的网络,但结果却大相径庭。一个经常被忽视的关键方面是,有关要解决的任务的专家知识可以提供比为CNN添加更多层之外的优势。在应用深度学习算法时获得良好性能的群体和研究人员往往在深度网络之外的方面有所不同,如新的数据预处理或增强技术。例如,在CAMELYON16-challenge中,在不改变CNN的情况下,通过添加应变归一化预处理步骤来改进泛化,从而显著提高了性能最佳的方法(AUC从0.92提高到0.99)。其他论文关注于数据增强策略,使网络更加健壮,他们报告说,这些策略是获得良好性能的关键。一个例子是原始U-Net论文中应用的弹性变形(Ronneberger et al., 2015)。
当然,增强和预处理并不是好的解决方案的唯一关键因素。一些研究人员已经表明,设计包含独特的任务特定属性的体系结构可以比简单的CNNs获得更好的结果。我们多次遇到的两个例子是多视图和多尺度网络。其他的,往往被低估的,网络设计的一部分是网络输入的大小和接受域(即,在输入空间的区域,贡献了一个输出单元)。应该根据解决问题所需的分辨率和上下文来选择输入大小。一个人可以增加补丁的大小来获得更多的上下文,但是如果不改变网络的接受域,这可能是没有好处的。作为一个标准的完整性检查,研究人员可以通过对网络输入的视觉评估来执行相同的任务。如果他们或领域专家不能实现良好的性能,则您需要修改网络输入或体系结构的可能性很大。
最后一个方面是模型超参数优化(例如学习率、dropout rate),它可以帮助从网络中挤出额外的性能。我们认为,相对于前面讨论的主题和培训数据质量而言,这是次要的。令人失望的是,由于这是一个高度经验性的练习,没有明确的方法可以获得最佳的超参数集。大多数研究人员回到直觉为基础的随机搜索(Bergstra和Bengio, 2012),这往往似乎工作得足够好。Bengio(2012)曾经提到过一些基本的技巧。研究人员还研究了用于超参数优化的贝叶斯方法(Snoek et al., 2012),但据我们所知,这还没有应用到医学图像分析中。
5.3 医学图像分析的独特挑战
很明显,将深度学习算法应用于医学图像分析存在几个独特的挑战。缺乏大型训练数据集常常被认为是一个障碍。然而,这种观点只是部分正确。PACS系统在放射学中的应用已经在大多数西方医院中常规了至少十年,这些医院中有数百万张图像。为特定目的而获取的如此大量的成像数据以数字形式存在于结构良好的档案中,这样的领域并不多见。类似pacs的系统并没有广泛应用于其他医学领域,如眼科和病理学,但随着影像学在各个学科中越来越普遍,这种情况正在改变。我们也看到越来越多的大型公共数据集被提供:Esteva等人(2017)使用了18个公共数据集和超过10{5}张训练图像;在Kaggle的糖尿病视网膜病变竞争中,相似数量的视网膜图像被释放出来;几项胸部x光检查使用了超过10{4}幅图像。
因此,主要的挑战不是图像数据本身的可用性,而是获取这些图像的相关注释/标记。传统的PACS系统存储由放射科医生描述他们的发现的免费文本报告。将这些报告以自动化的方式转换成精确的注释或结构化的标签需要复杂的文本挖掘方法,这本身就是一个重要的研究领域,而深度学习在当今也被广泛应用。随着结构化报告在几个医学领域的引入,从这些报告中提取标签在未来将变得更加容易。例如,已经有论文直接利用放射科医师的BI-RADS分类来训练深层网络(Kisilev et al., 2016)或分析光学相干断层成像图像的语义描述(Schlegl et al., 2015)。我们预计,在最佳利用免费文本和结构化报告网络培训的研究数量将在不久的将来增加。
考虑到利用PACS或类似系统的自由文本报告来训练算法的复杂性,研究人员通常要求领域专家(例如放射学家、病理学家)对图像数据进行特定于任务的注释。标记足够大的数据集可能会花费大量时间,这是有问题的。例如,为了训练用于放射学分割的深度学习系统,通常是3D的,需要逐片注释,这是非常耗时的。因此,有效地从有限的数据中学习是医学图像分析的一个重要研究领域。最近的一篇论文专注于训练一个深度学习分割系统,只使用稀疏的2D分割进行3D分割(Cicek et al., 2016)。在某些情况下,多实例或主动学习方法可能也会带来好处,并且最近在深度学习的环境中得到了应用(Yan et al., 2016)。也可以考虑通过众包利用非专业标签(Rajchl et al., 2016)。其他可能的解决办法可以在医学领域内找到;在组织病理学中,有时可以使用特定的免疫组织化学染色来突出感兴趣的区域,从而减少对专家经验的需求(Turkki等,2016)。
即使在领域专家对数据进行注释时,标签噪声仍然是开发算法的一个重要限制因素,而在计算机视觉中,图像标签的噪声通常相对较低。举个例子,LIDC-IDRI数据集(Armato et al., 2011)是一种广泛使用的用于评估图像分析算法以检测肺部CT结节的数据集(LIDC-IDRI)。在这个数据集中,四个放射科医生分别对肺结节进行了注释。随后,读者互相评注,但未达成共识。结果是,他们没有一致同意的结节数目是他们完全同意的数目的三倍。对这些数据进行深度学习需要仔细考虑如何处理参考标准中的噪声和不确定性。可以考虑将不确定性直接纳入损失函数中,但这仍然是一个开放的挑战。
在医学影像中,分类或分割通常是一个二元任务:正常与异常,物体与背景。然而,这通常是一种粗略的简化,因为这两个类可能是高度异构的。例如,正常类型通常包括完全正常的组织,但也包括一些良性的发现,这可能是罕见的,有时可能包括各种各样的成像伪影。这常常导致系统非常擅长排除最常见的正常子类,但却在一些罕见的子类上惨败。一个简单的解决方案是将深度学习系统转变为一个多类系统,为它提供所有可能的子类的详细注释。显然,这又增加了专家用于注释的时间有限的问题,因此通常是不可行的。一些研究人员专门研究如何通过在训练过程中加入智能,通过选择性抽样(van Grinsven et al., 2016)或硬负挖掘(Wang et al., 2016b)来解决这种不平衡。然而,当参考标准中存在大量噪声时,这种策略通常会失败。非常欢迎处理类内异构的其他方法。
另一个与数据相关的挑战是类别不平衡。在医学成像中,根据手头的任务,找到异常类的图像可能具有挑战性。例如,乳腺癌筛查项目的实施已经在全球许多地方建立了大量的乳房x光检查数据库。然而,这些图像大多数是正常的,不包含任何可疑的损害。当乳房x光检查确实包含可疑的病变时,这通常不是癌性的,即使大多数癌性病变也不会导致病人死亡。设计擅长处理这种类别不平衡的深度学习系统是另一个重要的研究领域。我们在当前文献中遇到的一个典型策略是将特定的数据增强算法应用于代表性不足的类,例如缩放和旋转变换来生成新的损伤。Pereira等(2016)对脑损伤分割的数据增强策略进行了深入的评估,以对抗类别失衡。
在医学图像分析中,有用的信息不仅仅包含在图像本身中。医生经常利用病人的病史、年龄、人口统计资料等丰富的数据来做出更好的决定。一些作者已经研究了以一种直接的方式将这些信息整合到深度学习网络中(Kooi et al., 2017)。然而,正如这些作者所指出的,所取得的改进并没有预期的那么大。其中一个挑战是如何平衡深度学习网络中成像特征的数量(通常是数千个)和临床特征的数量(通常只有少数几个),以防止临床特征被淹没。医生也经常需要利用解剖信息来做出准确的诊断。然而,许多医学影像领域的深度学习系统仍然是基于patch分类的,而patch的解剖位置往往是网络所不知道的。一种解决方案是将整个图像输入到深层网络,并使用一种不同类型的评估来驱动学习,就像Milletari等人(2016b)所做的那样,他们设计了一个基于骰子系数的损失函数。这也利用了一个事实,即医学图像通常是使用相对静态的协议,其中解剖总是大致在相同的位置和相同的规模。然而,如上所述,如果网络的感受野很小,则输入整张图像没有任何好处。此外,由于内存限制等原因,向网络提供完整的图像并不总是可行的。在某些情况下,由于GPU技术的进步,这个问题可能在不久的将来得到解决,但在另一些情况下,例如具有10亿像素大小图像的数字病理学,必须发明其他策略。
5.4 展望
虽然上面提到的大部分挑战还没有得到充分的解决,但已经有一些医学影像领域的深度学习的成功案例被报道,如Esteva等人(2017)和Gulshan等人(2016)在皮肤病学和眼科领域的研究。这两篇论文都表明,使用深度学习进行图像分类在某些任务上有可能超越医学专家。然而,我们觉得把这些论文放到与医学图像分析相关的背景中是很重要的,因为大多数任务都不能被认为是“解决”的。需要考虑的一个方面是Esteva等人(2017)和Gulshan等人(2016)都专注于小尺寸二维彩色图像分类,这与计算机视觉中处理的任务(如ImageNet)相对相似。这使他们能够利用wellexplored网络架构,如ResNet和VGG-Net,它们在这些任务中显示出了出色的结果。然而,不能保证这些架构在例如回归/检测任务中是最优的。它还允许作者使用预先训练好的网络,在数百万张标记良好的自然图像数据集上,这有助于解决缺乏同样大的标记医学数据集的问题。相比之下,在大多数医学成像任务中,三维灰度或多通道图像被使用,而预先训练的网络或架构并不存在。此外,这些数据通常具有非常具体的挑战,如各向异性体素大小、不同通道间的小配准误差(例如在多参数MRI中)或不同的强度范围。虽然医学图像分析中的许多任务可以假设为一个分类问题,但这可能并不总是最佳策略,因为它通常需要使用非深度学习方法(例如计数、分割或回归任务)进行某种形式的后处理。一个有趣的例子是Sirinukunwattana等人(2016)的论文,该论文详细介绍了一种直接预测原子核中心位置的方法,并表明该方法的性能优于基于分类的中心定位。尽管如此,Esteva et al.(2017)和Gulshan et al.(2016)的论文确实表明,针对特定医学图像分析任务精心设计的深度学习方法在理想情况下是可行的。
通过观察当前机器学习领域在深度学习方面的发展趋势,我们发现了一个与医学成像高度相关的关键领域:非监督学习。神经网络的复兴始于2006年左右,当时以无监督方式对神经网络进行逐层贪婪的预先训练。在2012年的ImageNet竞赛中,AlexNet的成功使全监督方法成为了标准,而这项调查中的大多数论文都采用了全监督方法。然而,对无监督训练战略的兴趣仍然存在,最近又重新受到重视。
无监督方法是有吸引力的,因为它们允许(初始)网络训练使用世界上可用的大量未标记的数据。另一个假设无监督方法仍将发挥重要作用的原因是,它与人类学习类似,似乎数据效率更高,而且在某种程度上也是以无监督的方式发生的;我们可以在不知道特定标签的情况下学会识别物体和结构。我们只需要非常有限的监督来将这些被识别的对象分类到类中。两种新型的无监督策略有望在医学成像领域产生影响,一种是Kingma和Welling(2013)提出的变分自动编码器(VAEs),另一种是Goodfellow等人(2014)提出的生成对抗网络(GANs)。前者将变分贝叶斯图形模型与神经网络作为编码器/解码器进行融合。后者使用两个相互竞争的卷积神经网络,一个生成人工数据样本,另一个区分人工和真实样本。两者都有随机成分,都是生成网络。最重要的是,他们可以接受端到端的培训,以完全不受监督的方式学习有代表性的特性。如前所述,获取大量未标记的医疗数据通常比获取标记数据容易得多,而像VAEs和GANs这样的非监督方法可以最佳地利用这些丰富的信息。
最后,深度学习方法经常被描述为“黑匣子”。特别是在医学领域,问责制很重要,可能会产生严重的法律后果,因此通常仅有一个良好的预测系统是不够的。这个系统还必须能够以某种方式表达自己。为了理解卷积网络的中间层是如何响应的,已经开发了几种策略,例如反卷积网络(Zeiler和Fergus, 2014)、引导反向传播(Springenberg等,2014)或深度泰勒合成(Montavon等,2017)。其他研究人员已经将预测与图像的文本表示(即字幕)联系起来(Karpathy和Fei-Fei, 2015),这是理解网络感知的另一种有用途径。最后,一些团队尝试将Bayesian统计数据与深度网络相结合,以获得真实的网络不确定性估计Kendall和Gal(2017)。这将允许医生在网络给出不可靠的预测时进行评估。利用这些技术将深度学习方法应用于医学图像分析,可以加速临床医生和患者对深度学习应用的接受。我们还预测,深度学习方法将被用于医学成像的相关任务,如图像重建(Wang, 2016)。因此,深度学习不仅对医学图像分析有很大的影响,而且对整个医学成像也有很大的影响。