【论文翻译】Deep Learning Earth Observation Classification Using ImageNet Pre-trained Networks

利用ImageNet预训练网络进行深度学习地物监测分类

DimitriosMarmanis,Mihai Datcu,IEEE院士,ThomasEsch和UweStilla,IEEE高级会员 

摘要—当用户能够提供足够的数据集和各类别的特征符号时,深度学习方法例如卷积神经网络(CNNs)能够产生较高精度的分类结果。然而,当缺乏特征数据时使用卷积神经网络(CNNs)将会产生过拟合的问题。这篇文章中,我们提出了一种加入预训练CNN的方法,用于解决完全不同的分类问题,也就是来自ImageNet的挑战,同时可以拓展这种方法用于提取一系列原始的表示。然后将导出的表示连同它们的类别标签一起转移到受监督的CNN分类器中,有效地训练这个系统。通过这两个阶段的框架,我们成功地解决了端到端处理方案中数据有限的问题。UC Merced Land Use(这是一种用于研究目的的21类土地利用图像数据集,图像像素大小为256*256,每一类有100张,共2100张)的基准比较结果证明,我们的方法明显优于先前最好的结果,将总体准确度从83.1%提高到92.4%。除了统计数据上的提高,我们的方法引入了一种新颖的特征融合算法,该算法通过使用简单且计算高效的方法来有效地处理大维度数据。

关键词—卷积神经网络(CNNs),深度学习(DL),特征提取,土地用途分类,预训练网络,遥感(RS)。

Ⅰ 引言

超高空间分辨率(VHSR)图像的监督分类在遥感(RS)领域仍是一个开放的研究课题。监测城市化趋势已成为一个关键目标,目前对这种自动RS分类技术的需求很高。在过去的几年中,针对这个方向,一些先进的方法已经为解决VHSR图像分类问题作出了重大贡献。主要是基于视觉词袋(BoVW,词袋模型可以应用于图像分类,将图像特征视为单词)的方法已经被提出用来完成这个任务,即以非监督的方式通过使用建立好的特征描述符(HOG,SIFT等)和聚类算法来学习一种表示图像内容的字典。这些方法包括空间金字塔匹配核(SPMK)[1],空间金字塔共生内核(SPY++)[2],最小树kd-tree[3]和稀疏编码[4]方法。然而,所有这些技术的主要缺点在于假设,由于采用包含人工设计的各方面目标特征的专家知识,这个假设的普遍特征描述符可完全表征复杂的图像结构。

关于特征描述符的另一种方法是通过使用自动编码器及其变体进行无监督的特征学习[5]。这些方法允许深度学习(DL)模型直接从输入数据学习一系列充足的非线性表征,而不需要假设或先验知识。[6][7]中的作者使用这种方法对RS数据进行了研究;但是,由于处于单一特征提取层面,因此它们的实现仍然很浅显的。

我们改进的方法是使用大型预训练网络进行常规内容发掘,而不需要经过训练阶段或使用标签。准确地说,数据通过一个大的预训练卷积神经网络(CNN)实现转换,产生一组高级的特征,以后可以将其用于在第二个处理阶段的分类。相似方法的调查可以在[8][9]中找到,其中作者通过不同的分类基准获得了最新的结果。有趣的是,尽管这些方法在计算机视觉领域取得了成功,但在RS领域仍然没有相关的研究。为填补这个空白,本文中我们提出了一种新颖的框架,使用一小组训练标签用于对遥感数据进行分类。具体而言,我们的方法是利用一个大型的训练网络实现完全不同的分类任务,即来自ImageNet的挑战,其中原始图像数据被用作输入,以便在未标记的方式下生成一组表示特征。之后,我们将衍生的表示特征与它们各自的标签一起转移到CNN分类器中,并应用到监督学习。通过这个框架,我们能够实现将总体准确率从83.1%提高到92.4%,得到使用UCMerced Land Use(UCML)的最新成果。此外,为了测试模型的可转移性,我们对陌生随机的航空影像进行了一系列定性实验,用我们预定义的UCML类将它们进行分类,并对结果进行视觉评估。

我们在这项工作中的成果与使用大型预训练网络进行RS土地利用分类有关,表明了来自不同领域的CNN分类器可以非常适合我们的分类任务。此外,在深度学习(DL)的框架中,我们提出了一种融合来自多个隐藏层的特征的新技术,可以带来显著的降维使计算量的大大减少。

这篇文章的其余部分安排如下。第二部分介绍了深度学习(DL)预训练模型。第三部分讨论了框架在特征融合中的应用。第四部分介绍我们完整的预训练模型。第五部分介绍了实验框架,而第六部分通过讨论结果和可能的未来研究方向来总结这文章。


Fig. 1.Workflow diagram of the two-stage classification neural network model.

图1.两阶段分类神经网络模型的工作流程图


II 关于预训练模型

A.ImageNet数据集

ImageNet数据库对于与视觉相关的分类工作具有巨大的重要性,因为文献中提出的所有主要预训练模型最初都是通过它进行训练的。ImageNet由大约1500万张高分辨率标记图像组成,被分为22000个类别。数据库中包含的图像通过搜索引擎进行检索,因此可以被视为常见的多媒体数据。在ImageNet框架下,举办了年度分类竞赛,即“ImageNet大规模视觉识别挑战”,参与者利用该数据集的一个子集处理他们所选择的训练分类算法。比赛中使用的训练数据集的实际大小由大约120万张图像组成,参与者需要将测试数据集分为1000个不同的类别。

B.用于RS图像分类的监督预训练网络

利用来自ImageNet上经过深度预训练CNN得到的信息,[8]中作者认为,通过利用包含在其中的封装的表示对图像进行分类,大部分都取得了非常好的效果,并且通常优于标准的分类方法。这些结果支持一个观点,即来自非常深的网络的特征是通用的,并且可以促进不同领域之间的转换学习,即使是在可用的标签数据有限的情况下。在诸如RS这样的领域,这样的特性非常重要,因为可用性的标签很稀缺,并且需要花费更多的精力和成本来获取(如地面实况活动)。

一个有趣的问题是,考虑到普通图像与遥感图像在成像属性上本质的区别,如何将这些系统利用到RS的分类中。我们认为,这种相互连接的关键在于CNN的结构排列,它通过多层次的处理方法部分模仿哺乳动物的视觉皮层。使用这种分层体系结构,大量训练好的CNN以低级空间描述符(边缘和角点检测器)来累积扩展知识,并使用它们以自底向上的方式描述图像。这样,预训练CNN可以将图像“分解”为一组原始元素,并检测它们在各种抽象层次上的相似性。由于这些特性,预训练网络可以很容易地通过最小化重新调整他们的学习权重来适应新的视觉任务。这个假设如果有效,表明RS图像可以直接与多媒介数据相关联,因此,这两种媒介可以通过相同的CNN分类器联合处理。我们的实验支持这个论点,并且我们在这篇文章的实验章节中展示了我们的详细结果。

III 特征融合框架

我们在这项工作中的主要贡献是用一种简单而计算效率高的方法来制定一种新的模式,用于组合从深层网络中提取的特征。我们的方法是利用从预训练的CNN中的不同层获得的一组深度激活因子,并将它们的信息连接成新的特征向量。如图1所示,该向量不断重新整合为二维数组(具有适当的零填充)。所提出的自适应由各种DL研究中引入的一组实验论证支持,我们将在下文中解决该问题。总的来说,我们提出的架构有三个基本问题。

•为什么只从最后一层提取特征?

•为什么要将这些信息融合成单个矢量?

•为什么要将特征向量重塑为二维数组?

A.在更深层次中发现更丰富的信息

[8]的有效的工作下,作者从预训练CNN的深层获得了激活因子,并在个体基础上评估了它们的分类准确性。通过详细的实验,他们根据实验证实,包含在大部分预训练网络的最后一层中的特征对分类准确性具有重要影响,对比起来,前面的层对结果无明显影响。因此,基于这个事实,我们单独考虑从我们预训练模型的非常深的层中得到信息,完全舍弃了那些较浅层的特征。

B.特征融合带来更高精度

[10]最初提出,结合CNN分类器不同层次的信息可以被看作是“多尺度特征提取”,其中不同尺度的信息共存于网络中的单一层。这种方法在DL文献中很常见,其中层之间的跳转连接将一个严格的顺序网络转换为对分类产生总体积极影响的有向非周期结构。另一种类似的方法如[11]中所示,其中作者将来自两个单独的CNN(分别在RGB图和深度图像上训练)的深度特征连接成单个矢量,然后将它们传递给最终分类器。受这些研究的影响,我们通过将深度特征连接成一个新的单一矢量并将它们视为联合特征来适应所提出的框架。

C.高层次特征的空间排列

如图1所示,将导出的特征向量重新整合为二维数组背后的缘由是由我们新的特征集的高维度激发的。准确地说,我们的当前向量具有非常大的尺寸,当考虑分类方案中的多维目标函数的优化时会造成计算瓶颈。考虑到这个限制,我们将特征向量重塑为二维数组,其中通过使用第二个CNN分类器可以使参数数量大量减少。出现这种降低是由于基本的CNN共享权重的属性,该属性通过输入维度时伴随一个卷积过程来实现。只要空间位置的数据之间共享参数可以产生有价值的关联并且观测到其中的特征样式,这种结构性的改进就是合理的。在我们的特定工作中,二维阵列的每个元素都可以被视为一个高等级特征,其中包含关于每个图像分类信息的一般特征。因此,这些高抽象图像特征之间的关联是可信的,并且在考虑共享权重框架时可以保持有效性。据我们所知,这种空间转换之前从未在文献中提出;然而,这种改进似乎并不影响我们的模型的学习效果,并且很好地应用在UCML的分类工作中。

IV 模型介绍

我们的模型由两个独立的处理阶段组成,即预训练模型和可训练CNN模型。下文中,我们

 

TABLE I     MODELARCHITECTURE AND HYPERPARAMETERS

表一    模型结构和超参数


将详细介绍这些分类阶段,提供有关它们的属性,特征和体系结构设计的信息。

A.预训练模型

我们的两阶段分类方案的第一个组成部分是预训练的CNN模型,该模型是使用固定权重集合和无类别标签生成一组特征。针对这项工作,我们利用Overfeat模型[9],这是公开可用的预训练模型中经常被使用的一种。Overfeat是著名的AlexNet[12]的改进版本,并且在2013年被包含了120万张标记图像的ImageNet数据集所训练。其作者提供的Overfeat作为即用型软件,将深度特征生成和分类相结合来提高性能。

关于实施预训练分类阶段,我们将UCML训练数据按顺序输入到Overfeat模型,并分别从第七和第八隐藏层中提取预激活因子。将它们传递到前面的可训练分类阶段之前,我们将导出的特征关联到尺寸为91*91的二维阵列,如图1所示。重要的是,所有UCML图像都需要从原始尺寸259*259像素降至221*221,以便它们符合最初由其作者确定的Overfeat模型标准化输入维度。

B.可训练的CNN

我们的分类体系结构的第二个组成部分是一个可训练的CNN,它接受先前产生的二维特征以及它们各自的类别标签作为输入。可训练CNN的架构包含两个卷积层,两个全连接层以及顶部的Softmax分类器(参见图1)。该模型使用标准后向传播和小批量随机梯度下降进行训练,此外还有一些标准化器,即Momentum,Max-Norm,Drop-out和Weight-Decay,以及实时数据增量。表I提供了模型超参数(超参数一般就是根据经验确定的变量)。可训练的CNN阶段是至关重要的,因为它具有很高的判别潜力,系统能够学习高度抽象特征之间的复杂关系,并将数据正确地分为相互独立的类别。尽管其他分类算法也可以提供准确的结果,但由于CNN提高了对输入(二维)的空间适应性,显然CNN优于其他算法。这种说法将在下一节的实证实验得到验证。

TABLE II    CLASSIFICATIONCOMPONENTS AND ALGORITHM COMPARISON

表二    分类组件与算法比较

 

TABLE III    METHOD COMPARISONOVER THE UCML BENCHMARK

表三    其他方法在UCML基准下进行比较

V 实验

A.通过UCML基准进行模型评估

UCML是一个开源的约30厘米空间分辨率的图像数据集,可由美国地质调查局获取[2]。它包含来自美国不同城市的大小为256*256(RGB波段)的2100个图像块,并按照每个类100个实例分成21个语义类别。

通过使用我们提出的两阶段分类器,我们成功地解决了UCML分类问题,取得了与先前报道的结果相比较的最新结果,这些结果汇总在表II中。对于这个实验,我们随机选择70%,10%和20%的数据分别用作训练,验证和测试。我们还保持类别平衡,以避免结果出现偏差。为了证明我们两阶段体系结构的重要性,当我们的体系结构的不同组成部分被省略或被另一个成熟的分类器(即随机森林(RF)算法)替代时,就会出现表III中的分类结果。我们的研究结果表明,当预训练阶段完全被忽略时,CNN和RF分类器都不能充分推广到测试集,导致分类效果差。此外,通过我们提出的二维空间排列和结合Overfeat的CNNs的使用,相比于Overfeat-RF架构,显着提高了分类精度,绝对差异为5.5%。这种改进的代价是延长CNN训练所需的时间(大约三天);然而,在测试期间,CNN和RF的执行速度都相当快(几秒钟)。为保证实验完整性,重要的是,表II中提到的所有分类算法都完全适应训练数据集达到100%的准确性,这表明由于训练数据集的小范围,所有算法都表现出过拟合问题。最后, 为了评估的单个土地利用分类情况,图2中我们计算了两阶段分类模型的混淆矩阵。

                            Fig.2   Confusion matrix of thetwo-stage classifier over the UCML test data set.

                                                         图2 UCML测试数据集上的两阶段分类器的混淆矩阵

B.高维特征结构的研究

一个值得关注的问题是如何将这些特征构建到不同分类阶段的高维特征空间中。考虑到这一点,我们采用了“t分布式随机相邻嵌入”算法(t-SNE),可视化导出的特征,并嵌入到三个不同的处理阶段,即1)RGB级别,2)预训练融合特征级别,和3)训练好的的CNN最后一层特征级。相应的结果可以在图3中找到。通过检查衍生集群,很明显,通过预训练网络获得的先验信息对数据产生积极影响并使相互无关的类别间初始分离,如图3(b)所示。类似地,通过使用第二个可训练网络,通过增加各个语义簇之间的可分离性和相对距离来进一步解开纠缠。

C.关于新数据模型的可转移性

RS的一个重要里程碑仍然是对来自不同传感器和地理区域的陌生数据进行分类的模型之间的可转换性。为了解决这个问题,我们采用了精心设计的UCML模型,对一系列来自不同城市(美国波士顿,美国圣地亚哥,美国西班牙巴利亚多利德)的同样分辨率的人工提取的航空影像进行实验。尽管考虑到陌生数据的复杂性,但该模型仍然能够提供准确的结果,因为它能够正确地检测图像中描述的类别,如图4。这些结果支持这样的论点:我们的模型构建了一组高级特征能准确地检测潜在的语义对象,即使在显然不同的场景中。

 

Fig. 3. Two-dimensional scatterplots ofhigh-dimensional features generated with t-SNE over the UCML data.

(a) Scatterplot of RGB pixels as features.(b)Scatterplot of features extracted from last two layers of ImageNet-Overfitnetwork.

(c) Features extracted from last supervisedCNN.        All points in the scatterplots are classcoded.

图3.在UCML数据上用t-SNE生成的高维特征的二维散点图

(a)RGB像素为特征的散点图 (b)从最后两层ImageNet-Overfit网络提取的特征的散点图

(c)从受监督的CNN最后一层提取特征             散点图中的所有点都是按类编排的


Fig. 4.Predicted classes over unseen aerial data

图4.陌生航空数据的预测类别

VI 结语

这篇文章中,我们看到了使用大型预训练神经网络的潜力,将RS航拍图像分类为一系列不同的土地利用类别。通过提出的框架,我们在UCML基准测试中取得了令人满意的成果,通过简单且计算效率高的端到端方法显着提高了最佳的分类表现。

在未来的研究中,考虑到具有更高光谱分辨率和地理变化的卫星数据,我们正在计划研究预训练网络在更大规模实验中的潜力。

参考文献

[1]    S. Lazebnik, C. Schmid, and J. Ponce, “Beyond bags of features: Spatialpyramid matching for recognizing natural scene categories,” in Proc. IEEE Comput. Vis. Pattern Recog., 2006, vol. 2, pp. 2169–2178.

[2]    Y. Yang and S. Newsam, “Spatialpyramid co-occurrence for image clas- sification,” in Proc. IEEE ICCV, 2011, pp. 1465–1472.

[3]    L. Gueguen, “Classifying compound structures in satellite images: Acompressed representation for fast queries,”IEEE Trans. Geosci.Remote Sens., vol. 53, no. 4, pp. 1803–1818, Apr. 2015.

[4]    A. M. Cheriyadat, “Unsupervised feature learning for aerial sceneclassi- fication,” IEEE Trans. Geosci. Remote Sens., vol. 52, no. 1, pp. 439–451,Jan. 2014.

[5]    P. Vincent, H. Larochelle, Y. Bengio,and P.-A. Manzagol, “Extracting and composing robust features with denoising autoencoders,” in Proc. 25th Int. Conf. Mach. Learn.,2008, pp. 1096–1103.

[6]    F. Zhang, B.Du, and L. Zhang, “Saliency-guided unsupervised feature learning for sceneclassification,” IEEE Trans. Geosci. Remote Sens., vol. 53,no. 4, pp. 2175–2184, Apr. 2015.

[7]    O. Firat, G. Can, and F. T. Yarman Vural,“Representation learning for contextual object and region detection inremote sensing,” in Proc. 22nd IEEE ICPR,2014, pp. 3708–3713.

[8]    J. Donahue et al., “Decaf: Adeep convolutional activation feature for generic visual recognition,” unpublished paper, 2013.[Online]. Available: http://arxiv.org/abs/1310.1531.

[9]    P. Sermanet et al., “Overfeat: Integratedrecognition, localization and de- tection using convolutional networks,” unpublished paper, 2013. [Online].

Available: http://arxiv.org/abs/1312.6229

[10]    P. Sermanet andY. LeCun, “Traffic sign recognitionwith multi-scale convolutional networks,” in Proc. IJCNN, 2011, pp. 2809–2813.

[11]    R. Socher, B. Huval, B. Bath, C. D. Manning, and A. Y. Ng, “Convolutional-recursive deeplearning for 3D object classification,” in Proc.Adv. Neural Inf. Process. Syst.,2012, pp. 665–673.

[12]    A. Krizhevsky, I. Sutskever, and G. E. Hinton, “Imagenet classificationwith deep convolutional neural networks,” in Proc. Adv. Neural Inf.Process. Syst., 2012, pp. 1097–1105.

 

附:

Ø  ImageNet数据集:

目标是收集大量带有标注信息的图片数据供计算机视觉模型训练。ImageNet拥有1500万张标注过的高清图片,总共拥有22000类,其中拥有100万张标注了图片中主要物体的定位边框。

Ø  Bag ofwords模型:

最初被用在文本分类中,将文档表示成特征矢量。它的基本思想是假定对于一个文本,忽略其词序和语法、句法,仅仅将其看做是一些词汇的集合,而文本中的每个词汇都是独立的。简单说就是将每篇文档都看成一个袋子(因为里面装的都是词汇,所以称为词袋,Bag ofwords即因此而来),然后看这个袋子里装的都是些什么词汇,将其分类。如果文档中猪、马、牛、羊、山谷、土地、拖拉机这样的词汇多些,而银行、大厦、汽车、公园这样的词汇少些,我们就倾向于判断它是一篇描绘乡村的文档,而不是描述城镇的。近年来, BoW模型被广泛应用于计算机视觉中.与应用于文本的BoW类比, 图像的特征(feature)被当作单词(Word),把图像“文字化”之后,有助于大规模的图像检索.即Bag-of-Visual-Word(BOVWmodel)

BOVW基本思想:

1、提取特征:根据数据集选取特征,然后进行描述,形成特征数据,如检测图像中的siftkeypoints,然后计算keypoints descriptors,生成128-D的特征向量;

2、学习词袋:利用处理好的特征数据全部合并,再用聚类的方法把特征词分为若干类,此若干类的数目由自己设定,每一个类相当于一个视觉词;

3、利用视觉词袋量化图像特征:每一张图像由很多视觉词汇组成,我们利用统计的词频直方图,可以表示图像属于哪一类。

Ø  UCMerced Land Use Dataset:

是一个包含21类场景遥感卫星图像分类数据库(每个类别100张图片)。

阅读更多
想对作者说点什么?

博主推荐

换一批

没有更多推荐了,返回首页