一、图像分类
目标:图像分类问题,就是对已有固定的分类标签集合,然后对于输入的图像,从分类标签集合中找出一个分类标签,最后把分类标签分配该输入图像。
例如:一只猫,人眼很容易分辨出来,但计算机如何去识别,可以把猫看成一类标签,把狗看成一类标签。
对于输入的图像,图像分类模型读取该图片,并生成该图片属于集合 {cat, dog, hat, mug}中各个标签的概率。猫的图像大小是宽248像素,高400像素,有3个颜色通道,分别是红、绿和蓝(简称RGB)。如此,该图像就包含了248X400X3=297600个数字,每个数字都是在范围0-255之间的整型,其中0表示全黑,255表示全白。我们的任务就是把这些上百万的数字变成一个简单的标签,比如“猫”。
图像分类任务:对于给定的一个图像,预测他属于哪个分类标签。
好的图像分类模型能够在维持分类结论的同时,保持对类间差异足够敏感。
图像分割:分割成不同的区域,且每个区域互不相交。(内部相似性,区域与区域之间的不连续性)
二、数据驱动
给计算机很多数据,然后实现学习算法,让计算机学习到每个类的外形。
第一步要收集已经做好分类标注的图片作为训练集。
数据库:
三、流程
图像分类就是输入一个元素为像素值的数组,然后给它分配一个分类标签。
1.输入:输入包含N个图像的集合,每个图像的标签是K中分类标签中的一种。这个集合称为训练集。
2.训练:使用训练集类训练一个最优模型。
3.评价:让最优模型来预测未曾见过的图像分类标签,也叫测试集,把最优模型预测的标签和图像真正的标签做对比,如果一致,证明模型训练结果很好。