关于细粒度图像识别的一些思考

背景

细粒度图像识别是图像分类中的一个颇具挑战性的任务,它的目标是在一个大类中的众多子类中正确的识别目标。但是相同子类中物体的动作和姿态步态可能相同,不同子类间又有可能有着相同的姿态,这是识别的一大难点。
总的来说,细粒度图像分类是寻找一些细微差别的局部区域,并利用这些局部区域的特性对原图进行分类。当然,如何有效的对前景对象进行检测,并从中发现重要的局部区域信息,成为了细粒度图像分类算法要结局的关键问题。
对于细粒度图像模型,可以按照其使用的监督信息的强弱,分为“基于强监督信息的分类模型“和“基于弱监督信息的分类模型“两大类

基于强监督信息的细粒度图像分类模型


思想:

为了获得更好的分类精度,除了图像的类别标签外,还使用了物体的标注框(Object Bounding Box)和部位标注点(Part Annotation)等额外的人工标注信息,这些标注信息主要包括物体的前景图片和物体本身重要区别部位的标注。

———-

处理流程举例:

一、
利用Selective Search 算法在细粒度图像上产生物体或者物体部位可能出现的候选框(Object Proposal)
二 、
按照R-CNN的流程进行物体检测,借助细粒度图像中的Object Bounding Box 和 Part Annotation 可以训练处3 个检测模型:一个对应细粒度物体级别的检测;一个对应物体头部检测,另一个对应物体的身体躯干的检测。
这里先介绍一下R-CNN的算法流程
RCNN算法分为4个步骤
  - 一张图像生成1K~2K个候选区域 
  - 对每个候选区域,使用深度网络提取特征 
  - 特征送入每一类的SVM 分类器,判别是否属于该类 
  - 使用回归器精细修正候选框位置 
R-CNN候选区域生成
使用了Selective Search1方法从一张图像生成约2000-3000个候选区域。基本思路如下:
 - 使用一种过分割手段,将图像分割成小区域 
 - 查看现有小区域,合并可能性最高的两个区域。重复直到整张图像合并成一个区域位置 
 - 输出所有曾经存在过的区域,所谓候选区域
 - 

候选区域生成和后续步骤相对独立,实际可以使用任意算法进行

R-CNN合并规则
优先合并以下四种区域:
  • 颜色(颜色直方图)相近的
  • 纹理(梯度直方图)相近的
  • 合并后总面积小的
  • 合并后,总面积在其BBOX中所占比例大的
    合并后的区域特征可以直接由子区域特征计算而来,速度较快。
    特征提取
R-CNN预处理
使用深度网络提取特征之前,首先把候选区域归一化成同一尺寸227×227。
此处有一些细节可做变化:外扩的尺寸大小,形变时是否保持原比例,对框外区域直接截取还是补灰。会轻微影响性能。
R-CNN预训练
网络结构

基本借鉴Hinton 2012年在Image Net上的分类网络2,略作简化3。
这里写图片描述
此网络提取的特征为4096维,之后送入一个4096->1000的全连接(fc)层进行分类。
学习率0.01。

R-CNN训练数据

使用ILVCR 2012的全部数据进行训练,输入一张图片,输出1000维的类别标号。

R-CNN调优训练

网络结构如下:

这里写图片描述

同样使用上述网络,最后一层换成4096->21的全连接网络。
学习率0.001,每一个batch包含32个正样本(属于20类)和96个背景。

R-CNN训练数据

使用PASCAL VOC 2007的训练集,输入一张图片,输出21维的类别标号,表示20类+背景。
考察一个候选框和当前图像上所有标定框重叠面积最大的一个。如果重叠比例大于0.5,则认为此候选框为此标定的类别;否则认为此候选框为背景。

R-CNN类别判断
分类器

对每一类目标,使用一个线性SVM二类分类器进行判别。输入为深度网络输出的4096维特征,输出是否属于此类。
由于负样本很多,使用hard negative mining方法。

正样本

本类的真值标定框。

负样本

考察每一个候选框,如果和本类所有标定框的重叠都小于0.3,认定其为负样本

R-CNN位置精修

目标检测问题的衡量标准是重叠面积:许多看似准确的检测结果,往往因为候选框不够准确,重叠面积很小。故需要一个位置精修步骤。
回归器
对每一类目标,使用一个线性脊回归器进行精修。正则项λ=10000。
输入为深度网络pool5层的4096维特征,输出为xy方向的缩放和平移。
训练样本
判定为本类的候选框中,和真值重叠面积大于0.6的候选框。

三、

以上是R-CNN的进本流程,现在我们接着来讲基于强监督信息的细粒度图像分类模型**处理流程的第三步:
  对三个检测模型得到的检测框加上几何位置的约束,如图:**
  ![这里写图片描述](https://img-blog.csdn.net/20171003151439072?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvaHVhbmcyODE4MTM4/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)

四、

接下来将得到的图像块(Image Patch)作为输入,分别训练一个CNN,则该CNN可以学习到针对该物体\部位的特征。
五、
最终将三者的全连接层特征级联做为整张细粒度图像的特征表示


总结:

这样看来,最终的全连接层的特征表示即包含全局的特征又包含具有更强判别性的局部特征。因此分类精度较理想。但在Part-based R-CNN中,不仅在训练时需要借助Bounding Box和Part Annotation,为了取得满意的分类精度,在测试时甚至还要求测试图像提供Bounding Box。这便限制了Part-based R-CNN在实际场景中的应用。

细粒度识别关注点在于局部特征,对于一张图片,局部特征是很多的,怎么在众多的局部特征学习到有用的特征,这是一个难题。特别是在图片很少的情况下,很容易学到错误的特征,这样就是过拟合于训练集了还有就是CNN浅层的卷积核空间分辨率高,但是携带语义特征少。怎么将局部特征与语义特征相结合也是一个难点。
最近在做步态识别相关的工作,按照论文的结构自己跑了一遍代码,却发现屡次都不收敛,于是就想对于CASIA-B这个数据库来说运用细粒度识别的技术难点到底在哪里,最后仔细看了一下网络的结构以及损失函数的变化情况,才发现,对于这种小样本集合来说,尽管选出了候选区域,如果考虑单一角度下的步态能量图,比如90度下的正常行走的,仅仅只有744张,而且要分辨的类别为124类,而每张步态能量图所提取的候选区域有限,而且在这有限的候选区域当中还有一部分对识别并没有太大的帮助,所以总体的训练输出是处于欠拟合的状态,也就是网络不收敛导致实验失败。
  • 6
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值