翻译: Deep Convolutional Neural Networks for Breast Cancer Histology Image Analysis

翻译: Deep Convolutional Neural Networks for Breast Cancer Histology Image Analysis(深度卷积神经网络在乳腺癌组织学图像分析中的应用)

乳腺癌是全球癌症死亡的主要原因之一。早期诊断显着增加了正确治疗和生存的机会,但这个过程很繁琐,并且常常导致病理学家之间的分歧。计算机辅助诊断系统显示出提高诊断准确性的潜力。在这项工作中,我们开发了基于深度卷积神经网络的计算方法,用于乳腺癌组织学图像分类。苏木精和伊红染色的乳腺组织学显微镜图像数据集作为ICIAR 2018乳腺癌组织学挑战赛的一部分提供。 我们的方法利用了几种深度神经网络架构和梯度增强树分类器。 对于4级分类任务,我们报告准确率为87.2%。 对于检测癌症的2级分类任务,我们在高灵敏度操作点报告准确度为93.8%,AUC为97.3%,灵敏度/特异度为96.5 / 88.0%。 据我们所知,这种方法在自动化组织病理学图像分类中优于其他常用方法。 我们的方法的源代码可在https://github.com/alexander-rakhlin/ICIAR2018上公开获取。

关键词:医学图像,计算机辅助诊断(CAD),计算机视觉,图像识别,深度学习

1.Introduction

乳腺癌是美国女性中最常见的癌症(不包括皮肤癌),占美国女性新癌症诊断的30%[1]。乳房组织活组织检查允许病理学家利用组织学知识评估组织的微观结构和元素。组织病理学旨在区分正常组织,非恶性(良性)和恶性病变(癌)并进行预后评估[2]。苏木精和伊红(H&E)的组合是常规组织病理学诊断的组织标本的主要染色。有多种类型的乳腺癌具有特征性的组织形态,见图1.乳腺癌起源于乳腺上皮,导致导管内的恶变前上皮增生,称为原位导管癌。浸润性癌的特征在于癌细胞能够突破管壁的基底膜并渗透到周围组织中[3]。
在这里插入图片描述

组织,细胞和亚细胞区室的形态受与细胞分化,发育和癌症相关的复杂生物学机制的调节[4]。 传统上,形态学评估和肿瘤分级由病理学家在视觉上进行,然而,这个过程是乏味和主观的,甚至在高级病理学家之间也会产生观察之间的差异[5,6]。 在视觉分类中应用形态学标准的主观性促使使用计算机辅助诊断(CAD)系统来提高诊断准确性,减少人为错误,提高观察者间协议水平,并提高再现性[3]。

从基于规则到机器学习的应用[3],为数字病理图像分析开发了许多方法。 最近,基于深度学习的方法在许多图像分析任务中表现优于传统的机器学习方法,自动化端到端处理[7-9]。 在医学成像领域,卷积神经网络(CNN)已成功用于糖尿病视网膜病变筛查[10],骨病预测[11]和年龄评估[12]等问题[7]。 以前基于深度学习的组织学显微图像分析应用已经证明了它们在诊断乳腺癌方面的潜力[3,13-15]。
在本文中,我们提出了一种用于乳腺癌类型分类的组织学显微图像分析方法。 我们的方法利用深度CNN进行特征提取和梯度增强树进行分类,据我们所知,它优于其他类似解决方案。

2 Methods

2.1 Dataset

图像数据集是来自[13]的数据集的扩展,由400个H&E染色图像(2048×1536像素)组成。 所有图像均采用相同的采集条件进行数字化,放大倍率为200倍,像素尺寸为0.42μ?×0.42μ?。 每个图像都标有四种平衡类别之一:正常,良性,原位导管癌和浸润性癌,其中类别被定义为图像中的主要癌症类型,参见图1。图像方式注释由两位医学专家[16]。 挑战的目标是为每个输入图像提供自动分类。
在这里插入图片描述

2.2方法概述

数据集的有限大小(4个类别的400个图像)对深度学习模型的训练提出了重大挑战[7]。包含VGG,Inception和ResNet等数百万参数的非常深的CNN架构在许多计算机视觉任务中取得了最先进的结果[17]。然而,从头开始训练这些神经网络需要大量图像,因为对小数据集的训练导致过度拟合,即无法概括知识。当仅将预训练的神经网络的一部分拟合到新数据集时,在这些情况下的典型补救措施被称为微调。但是,在我们的实验中,微调方法并未表现出良好的性能。因此,我们采用了一种称为深度卷积特征表示的不同方法[18]。为此,深度CNN在大型和一般数据集如ImageNet(10M图像,20K类)[19]上进行训练,用于无监督特征表示提取。在这项研究中,乳房组织学图像使用最先进的通用网络进行编码,以获得低维度的稀疏描述符(1408或2048)。这种无监督的降维步骤显着降低了下一阶段监督学习过度拟合的风险。
我们使用LightGBM作为梯度增强树的快速,分布式,高性能实现,用于监督分类[20]。 梯度增强模型由于其速度,精度和对过度拟合的鲁棒性而被广泛用于机器学习[21]。

2.3数据预处理和扩充

为了将显微镜图像放入一个共同的空间以便进行改进的定量分析,我们将[22]中描述的H&E染色在组织上的量进行标准化。对于每个图像,我们执行50种随机颜色增强。在[23]之后,通过将组织的RGB颜色分解为H&E颜色空间,然后将每个像素的H&E的大小乘以范围[0.7,1.3]中的两个随机均匀变量来调整H&E的量。此外,在我们的初始实验中,我们使用了不同的图像比例,原始的2048×1536像素,缩小了一半到1024×768像素。从原始尺寸的图像中我们随机剪裁提取两种尺寸800×800和1300×1300。从缩小的图像中我们剪裁400×400像素和650×650像素的图像。最近,我们发现缩小图像就足够了。因此,每个图像由20个crops表示。然后将crops编码为20个描述符。然后,将20个描述符的集合通过3范数池[24]组合成单个描述符:
在这里插入图片描述

如[24,25]中建议的那样,超参数?= 3,?是数字作物,d?是crops的描述符,d????是图像的合并描述符。 向量的p范数给出?= 1的平均值和?→∞的最大值。结果,对于每个原始图像,我们获得50(颜色增强的数量)×2(裁剪尺寸)×3(CNN编码器)= 300个描述符。

2.4特征提取

整体预处理流水线如图2所示。对于特征提取,我们使用Keras分布的标准预训练ResNet-50,InceptionV3和VGG-16网络[26]。 我们从每个模型中删除完全连接层,以允许网络使用任意大小的图像。 在ResNet-50和InceptionV3中,我们通过GlobalAveragePooling将包含2048个通道的最后一个卷积层转换为长度为2048的一维特征向量。使用VGG-16,我们将GlobalAveragePooling操作应用于四个内部卷积层:block2, block3,block4,block5分别有128,256,512,512个通道。 我们将它们连接成一个长度为1408的向量,见图3。
在这里插入图片描述

2.5 训练

我们将数据分成10个分层折叠以保持类分布。数据增加会使数据集的大小增加300倍(2个块图像大小x 3个编码器x 50个颜色/仿射增强)。然而,给定图像的描述符保持相关。为防止信息泄漏,同一图像的所有描述符必须包含在同一折叠中。对于编码器,crop大小和规模的每个组合,我们使用10倍交叉验证训练10个梯度增强模型。除了获得交叉验证的结果之外,这还允许我们通过有限的数据(套袋)增加模型的多样性。此外,我们使用LightGBM中的不同随机种子循环每个数据集5次,在模型级别上添加扩充。结果,我们训练10(折叠数)×5(种子)×4(比例和crop)×3(CNN编码器)= 600梯度增强模型。在交叉验证阶段,我们仅使用未经过此折叠培训的模型来预测每个折叠。对于测试数据,我们同样为每个图像提取300个描述符,并将它们与针对特定块大小和编码器训练的所有模型一起使用。所有增强和模型的平均值均为预测值。最后,预测类由最大概率分数定义。

3 Results

为了验证方法,我们使用10倍交叉验证。【0-fold cross-validation,用来测试算法准确性。是常用的测试方法。将数据集分成十份,轮流将其中9份作为训练数据,1份作为测试数据,进行试验。每次试验都会得出相应的正确率(或差错率)。10次的结果的正确率(或差错率)的平均值作为对算法精度的估计,一般还需要进行多次10倍交叉验证(例如10次10折交叉验证),再求其均值,作为对算法准确性的估计。】
对于二分类非癌(正常和良性)与癌(原位导管癌和浸润性癌),分类准确度为93.8±2.3%,ROC曲线下面积为0.973,见图4a。 在高灵敏度设定点0.33时,模型检测癌的灵敏度为96.5%,特异性为88.0%。 在0.50的设定点,模型的灵敏度为93.0%,特异性为94.5%,图4a。 在200例癌症病例中,仅有9例原位导管癌和5例浸润性癌,图4b。
在这里插入图片描述
在这里插入图片描述
表1显示了4分类的分类准确性。 所有fold的平均准确度为87.2±2.6%。 最后,从表1中可以看出我们使用的强增强和模型融合的重要性。融合模型的准确度比其任何单个成分高出4-5%。整体10倍的标准偏差是两倍。 低于各个型号的平均标准偏差。 此外,通过对5个种子模型进行平均,我们在表1中的所有结果都略有改善。

4.结论

在本文中,我们提出了一种简单有效的方法,用于在非常小的训练数据(几百个样本)的情况下对H&E染色的组织学乳腺癌图像进行分类。 为了提高分类器的稳健性,我们使用强大的数据增强和深度卷积特征,这些特征是在ImageNet上预先训练的公共CNN上提取的。 最重要的是,我们应用高度准确且易于过度拟合的梯度增强算法。 与以前的一些方法不同,我们有目的的避免在这一数据量上训练神经网络,以防止过拟合。据我们所知,本文的结果优于文献报道的乳腺癌图像的自动分析[13-15]。


个人翻译仅供参考,请大家及时指出错误

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值