在大量类中实现花的自动化分类(英语较差,部分地方理解不到原著思想,不吝赐教)

 摘  

       我们在类似类别的大数据集中调查组合特征到什么程度能提高分类性能。为此我们引入一个103类花的数据集。我们计算花的四种不同的特征,每个特征描述不同的方面,即局部的形状/纹理、形状的边界,整体空间分布的花瓣和颜色。我们使用多个内核在支持向量机分类器上使这几个特征结合起来。为每个类设置权重是使用Varma 和Ray[16] 的 方法,此方法在其他大型数据集上取得了最好的效果,比如加州理工学院的101/256。我们的数据集有一个类似的挑战,即大数量的类,但是增加了困难——大型类间相似度和类与类差异小。结果表明,学习最优内核组合多个功能大大提高了性能,从单一特征最好的分辨率55.1%到结合的所有特性的识别率为72.8%。

 

1 介绍

       基于图像的分类系统正在改善分类对象,任务是移动到在数据集上采用更多类别,如Caltech256[8]。最近工作[文献2、8、9、16、17、18] 在这领域已取得很多成功。在本文中,我们探索的问题是识别大量的类,但这大量的类都属于一个类别——花,而不是识别大量不同的类别。对花分类比对自行车、汽车和猫的分类更具挑战性,因为花的分类存在于大型相似类之间。此外,鲜花是非刚性的对象,可以在许多方面变形,因此还有一个大量变异类的内部。之前的分类工作是基于花数量为(12、14]从10到30。这里我们介绍的是对103类花卉数据集进行分类。图像的数据集如图1所示。

  图1:103类花的数据集。每个图像是一个不同的类的一个实例。他们是按字母顺序排序。每个图像下面的彩条显示了每个类巨大的特征权重,在第四节所描述的。

 

       一朵花与另一朵花的区别有时是颜色,如蓝贝尔和向日葵;有时是形状,如水仙花和蒲公英,有时为花瓣的图案,如三色紫罗兰和虎皮百合等等。难点在于找到合适的特性来代表颜色、形状、模式等, 并且使用这种特性能对分类器拥有学习能力。

      对于加州理工学院101/256图像数据集[7,8],先进的性能已达到使用多个特性[18]和内核的线性组合在一个支持向量机分类器中[2、3、16]:一个基本内核计算了每个特性(如形状,外观)和这些基地内核[3]的最终的内核是由一个加权线性组合,最终内核是为每个类使用一组不同的权重。Varma和Ray [16]表明,权重可以通过求解一个凸优化问题进行学习。 

      在本文中,我们研究这个多个内核学习方法来获得不可控情况下花的图象,影像主要从网络上下载,大量的考虑了规模、分辨率、照明、混乱、质量等。我们做的是为每个图像(第2部分)建立自动段的链接,这样之后花就是孤立的图像。这使得识别工作和加州理工学院的101/256有点本质上类似,——每个图像(除了个别领域的花朵像蓝铃花)只有一个(或很少)实例对象——即背景杂波被移除,而且有一个类似的数字(103vs101)的类被分类。另一方面花分类相比Caltech101分类有另外的挑战,即规模的变化,姿态变化及更大的类间相似。 

        我们设计特征、相应的内核,适合花类,花能捕获花瓣的色彩、纹理和形状(局部和全局)和他们的排序。这呈现在第三节。图像数据集和实验过程中描述在第四节,结果测试集在第五节给出。

 

 2   分割

     一些论文[6、12、13、14)提出了明确的方法自动分割成花的图像,花作为前景,其余为背景。我们在这里使用Nilsback和Zisserman[13] 提出的分割方案。 

     方案[13]的在迭代方式下进行:首先初始花,分割是获得使用通用(非类特定)前景和背景颜色分布。这些分布是通过对每个类的数据集中的几个训练图像前景 (即花的一部分)的像素作标签得到的,或背景(即绿色植物的一部分),然后在所有类平均分布。鉴于这些综合的前景和背景分布、最初的二元分割是获得文献 [4]中使用对比之前的马尔科夫成本函数, 优化与削减后的图。这个细分可能并不完美,但通常至少能够提取花的部分外部边界。一个通用的花朵形状模型装入到这个初始分割,以检测花瓣。该模型使用像程序一样有仿射不变性的Hough变换选择具有一个宽松的几何一致性的花瓣。花瓣在图像中的区域被视为具有几何一致,用来获取一个新的图像特定前景的颜色模型。这个前景的颜色模型是通过混合图像更新特定的前景与一般的前景模型的模型。马尔可夫随机场分割是重复使用这种新的分割颜色模型。在初始分割的情况下是不完美的,使用图像特定的前景更经常获得比单纯的花还多的背景。这些形状模型拟合和图像特定的前景的步骤学习可以迭代,直至收敛,当在两个连续的迭代中没有变化或很少的变化发生时。 

       该方案介绍了使用13类花的数据集,为文献[12]中17类子集。图2显示了我们在103类数据集上使用这个方案获得的分割示例图。可以看出,它还适用于具有非常不同形状的花。

 

 

3  分  类

       我们的目标是获得一个能够区分类与类间的分类器,并且能够正确的对同一类的所有实例进行分类。分类器需能代表和学习,辨别向日葵和黛西,色彩是一个有用的线索,但形状就有点麻烦。相反,来区分毛茛和蒲公英,形状就有用得多,但是颜色不会。在这一节中,我们首先描述四个特征,意在代表前景花区域,然后使用基于线性组合核函数的一对剩余支持向量机分类,其中每个内核对应于一个特性。 

 3.1  特性 

       选择不同的特征来描述不同花的属性。我们使用颜色、梯度方向的直方图(HOG)[5]等低级别特征和前景区域及其边界采样抽取SIFT [10]特征 

       颜色:颜色是采取了HSV的像素值。HSV空间的选择,因为它对光照不敏感,应该能够更好地处理不同的天气条件和一天之中不同时间拍摄的花卉图片。在一个图像中每个像素的HSV值是使用k均值聚类的。给定一组集群中心(视觉词)Wci , i = 1,2, ..., Vc, 图像中每个像素I分配到最近的集群中心, 频率分配记录在一个Vc维归一化频率直方图中 n(Wc|I)。 

      前景区域的SIFT(尺度不变特征变换)特征: SIFT [10]的描述符计算在一个规则的网格点与前景花区域M像素的间距。在每个网格点描述符计算在半径R像素的循环支持补丁。只使用灰度值(没有真彩色),产生的是一个128的SIFT特征描述符向量。应对空斑块,所有SIFT描述符和低于L2标准的阈值(200)置零。注意,我们使用旋转不变的特性。这个SIFT功能描述了纹理和花的局部形状(如细花瓣结构(比如向日葵) ,峰值(比如一个兰刺头)。我们通过矢量量化获得n(Wf |I)和颜色一样的特征。 

      前景边界的SIFT(尺度不变特征变换)特征:边界的划分使我们能够得到花的边界。自然界花容易变形导致了描述形状的难度增加。花瓣通常非常柔软灵活,可以弯曲,旋度、扭曲等。通过抽样花边界的SIFT特性,我们可以知道更多局部形状边界的特点(在内部特性)。一个类似的边界特征在文献[11]中用到。128维SIFT描述符与半径R像素在每S步沿边界计算。以类似方式,内部区域SIFT,只有使用灰度值。n(Wb |I)是通过边界SIFT特征聚类获得,即边界和内部SIFT特征用单独的词汇表区分。 

        梯度直方图:文献[5]提及的HOG特征,类似于SIFT特征,除了他们使用一个重叠区域和网格中的单元格进行规范化比较。然而,不是被应用到局部(SIFT实例半径R), 梯度直方图是应用了花的整个区域(而这并不使旋转不变)。通过这种方式,它捕获了更多的全局空间分布的花,如总体布置的花瓣。细分用于指导计算HOG的特性。我们找到最小的边界框封闭分割的前景和计算在该地区的边界框内HOG特征。然后,我们通过和以前特性相同的方式即矢量量化获得n(Wh|I)。

 

3.2  分类器线性组合的内核 

       支持向量机[15]是一个使用多个内核[1] 的分类器。使用一个加权线性组合内核,内核对应于每个特性。最后的内核有以下形式,两个数据点i和j:

 

Xf是对描述符f (如:对于局部形状直方图的规范化视觉词) 的特征向量,βf是特性f 的权重。 X2(x,y)是直方图x和y对称卡方之间的距离。注意,K(x,y)= exp(−µχ2(x,y))是一个线性相关的内核,因此(1)是一个线性相关内核的求和规则。在所有的训练图像[18]的χ2和向量Xf之间的距离用参数µf表示,被设置为1/平均值。 

         参照文献【3】,βf参数集是用one-vs-rest方法每组学习的结果,作为下一节的描述,最后一个测试图像的分类, 所有的花类最积极响应即为确定的分类器。

 

4 数据集和实验过程 

      在本文中,我们采用一个包括8189张图像的103类花的数据集。图1显示了每个类的一个例子。这些被选花在英国很常见。大多数的图像均收集于网络,少数图像是自己拍摄的。每个类包含40到250张图片。图3显示所有花类的图像数量的分布情况。西番莲和洋桔梗有最大数量的图像, ,墨西哥翠菊, 鸡冠花、月亮兰花,风铃草和樱草花最少,即每个类40张。图像重新调节后最小的尺寸是500像素。

          这个数据集分成一个训练集,验证集和一个测试集。训练集和验证集每个类包含10个图像(即训练集和验证集都有1030个图像)。这个测试集由剩下的6129张图片(每个类最低20张)组成。验证集用于优化每个特性视觉词汇的数值,半径和SIFT特性的间距。

        对于验证集和测试集,性能衡量每个类(在同样的方式下的加州理工学院的101/256实验),即最后的性能是所有类(不包括所有图片) 的平均分类。

 

4.1验证集优化 

        参数最优值比如网格间距(内部SIFT)或每个特性的k-均值聚类是可以通过在验证集上以优化性能的标准方式学习。

        例如内部SIFT,分类器是只使用内核为这一特性对训练数据进行训练。词汇最佳数量是由在1000到10000之间的搜索范围和在验证集上找到最大的分类性能决定。每个k -均值聚类重复3次,保持最好的结果。对于色彩,搜索在100到5000之间,因为颜色特性比SIFT特征有更少的规模。因此我们希望使用更少的词来描述它们。两个网格间距M和循环支持补丁R,是在5至50像素范围内搜索,。在验证集上,单独为每个变量进行了最大化的性能优化。 

        颜色特征的最佳的单词数量是1000,整个前景区域的SIFT特征是8000,在边界区域的SIFT特征是3000, HOG特性最佳使用1500。内部和边界分别进行SIFT特征变换的最优规模半径是15和10。内部SIFT最佳间距是10和边界SIFT最佳间距也是10。

        一旦验证集的参数确定,分类器使用所有可用的训练数据(包括训练集和验证集)进行重新训练。在这个阶段,权重βf由Varma和Ray[16]优化方法确定。

 

5  测试集的结果 

       表1显示了不同的特性集的分类性能。可以看到,所有的特性相结合的结果比使用单一的最佳特性(内部SIFT) 有一个更好的性能。内部SIFT和边界SIFT都有助于提高性能。使用一个特性时,内部SIFT绩效是最好,这也是作为非刚性易变形花瓣的预期,边界的影响超过里面的影响。图1显示了每个one-vs-rest分类器学习后的权重。一张图像代表一个类,每个图像下面的彩条显示不同特征的权重分布。蓝色代表内部SIFT特征的权重,红色代表HOG特征的权重,绿色代表颜色特性的权重,黑色代表边界SIFT特征的权重。彩条的结果表明,整体内部SIFT特征是最有区别的, 对于大多数分类有最大权重。但是,有一些类(如图4)例如距药姜属,在内部SIFT特征是零权重。这些放在HOG特征和沿边界采样SIFT特征有更多的权重,即他们比内部结构能更好的区分花瓣的边界和花瓣的总体布局。它还显示了一些像金鱼草的类,不好通过色彩去区分,但橙色大丽花的色彩权重是相对大。这是因为金鱼草中有许多不同颜色,而橙色大丽花仅有一个颜色。图5展示了特征相结合的正确分类的示例图片, ,但有些独立的特性导致错误归类。每一行显示了一个图像分类(绿色显示正确的)。最后一行,,显示了一个例子,单一的特征分类没有正确但三者的结合导致一个正确的分类。图6显示了误分类的例子。

  

相比以前的工作

       在这一节中,我们用我们的方法比较了公开可用的17类花数据集的性能,引用了文献[12]的方法,与前两个出版物:Nilsback和Zisserman[12],Varma和Ray [16] 的方法对这个数据集分类。再一次,我们报告对一个类的总体识别性能平均分类。注意,在文献[12]绩效测量是一个加权秩,旨在检索。在这里我们报告的结果不是第一次使用χ2距离函数的近邻分类器。 

        比较我们第一次使用分割方法(图削减),在[12] 描述,以获得花前景区域。在文献[12],特点是视觉词直方图的颜色、形状和纹理。最近邻分类器使用加权距离对这三个直方图(详见[12])给出了一个识别性能71.76±1.76%。使用相同的特征,但为一个多内核分类器,[16]达到一个识别性能82.55±0.34%,表明这是一个优越的分类器。这本文使用特性计算和再次用多个内核分类器,提高了性能,达到了85.1±1.19%,展示在这里介绍的附加特征的优点。 

       我们将用于本文的(从文献[13])迭代分割方案也做一个比较。我们再用文献[12]中方法计算新分割描述符的形状、颜色和纹理。 权重优化也使用文献[12]。这样识别性能为73.14±1.76%。通过使用多个内核分类器再次提高了性能,它的识别性能83.33±1.39%。最后,使用本文中的特性计算,多个内核分类器会导致性能为88.33±0.3%。这是迄今为止在17类花数据集最好的性能报告。 

       尽管在本文中使用特性计算会导致提高分类效果,不论图表削减分割还是迭代分割方案,使用文献[13]的分割方案更加有突出的进步。这主要是因为SIFT特征的边界计算对分割很敏感。

 6结论

      我们已经表明,在一个优化内核框架中通过结合特性我们可以提高一个很相似类的大型数据集的分类性能的。不同的类的不同的权重学习让我们对于每个分类使用一个最佳特性组合。这允许我们合并,例如,一些类形状很相似但颜色不同,一些类整体形状比内部形状更易区别,反之亦然。现在的主要挑战在于:在一个类大的变化和样本的图像相对较少的情况。未来的工作应该包括使用视觉相似类来共同对分类器进行训练。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值