多标签图像分类总结

目录

1.简介

2.现有数据集和评价指标

3.学习算法

4.总结(现在存在的问题,研究发展的方向)

简介

  传统监督学习主要是单标签学习,而现实生活中目标样本往往比较复杂,具有多个语义,含有多个标签。

     荷兰城市图片

    (1)传统单标签分类

      city(person)

    (2)多标签分类

      city , river, person,  European style

    (3)人的认知

     两个人在河道边走路

     欧洲式建筑,可猜测他们在旅游

     天很蓝,应该是晴天但不是很晒

    相比较而言,单标签分类需要得到的信息量最少,人的认知得到的信息量最多,多标签分类在它们两者之间

   问题描述:

     X=Rd表示d维的输入空间,Y={y1,y2,...,yq}表示带有q个可能的标签的标签空间

     训练集D={(xi,yi)|1≤ i ≤ m},m表示训练集的大小,上标表示样本序数

     xi∈ X,是一个d维向量。yi⊆Y,是Y的一个标签子集

     任务就是学习要学习一个多标签集的分类器h(x),预测h(x)⊆Y作为x的正确标签集。

     常见的做法是学习一个衡量x和y相关性的函数f(x,yj),希望f(x,yj1)>(x,yj2),其中yj1∈y,yj2∉y。

现有数据集和评价指标

1.现有数据集

  NUS-WIDE 是一个带有网络标签标注的图像数据,包含来自网站的 269648张 图像,5018类 不同的标签。

  从这些图像中提取的六种低级特征,包括64-D颜色直方图,144-D颜色相关图,73-D边缘方向直方图,128-D小波纹理,225-D块颜色矩和500-D 基于SIFT描述的词袋。

  网址:http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm 

 

  MS-COCO 数据集包括91类目标,328,000影像和2,500,000个label。

  所有的物体实例都用详细的分割mask进行了标注,共标注了超过 500,000 个物体实体.

  网址:http://cocodataset.org/

  

  PASCAL VOC数据集该挑战的主要目标是在真实场景中识别来自多个视觉对象类的对象。 它基本上是监督学习学习问题,因为提供了标记图像的训练集。 已选择的20个对象类是:
     人:人
     动物:鸟,猫,牛,狗,马,羊
     车辆:飞机,自行车,船,公共汽车,汽车,摩托车,火车
     室内:瓶子,椅子,餐桌,盆栽,沙发,电视/显示器

  train/val数据有11,530张图像,包含27,450个ROI注释对象和6,929个segmentation。

  网址:http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html#devkit 

 

  腾讯 AI Lab 此次开源的 ML-Images 数据集包括 1800 万训练图像和 1.1 万多常见物体类别. 

2.评价指标

  可分为三类

  • 基于样本的评价指标(先考虑单个样本在所有标签上的表现,然后对多个样本取平均,不常用)
  • 所有样本的评价指标(直接将所有标签的在所有样本上的表现)
  • 基于标签的评价指标(先考虑单个标签在所有样本上的表现,然后对多个标签取平均)