基本概念
如上图中为著名的鸢尾花数据,下面围绕鸢尾花我们来了解一些定义:
数据整体叫做数据集。
每一行数据为一个样本。
除最后一列为,每一列表达为样本的一个特征。
最后一列称为标记。
如果我们选取第一列和第二列的数据建立关系,可以得到下面的图,这个图也被称为特征空间。
根据这个特征空间我没可以明显的看出鸢尾花被分为两类,一类我们标记为红色,一类标记为蓝色。然后我们可以通过一条直线将他划分为两部分,得到下图:
将他分为两部分也就是将花的特征分为两种,所以也就是说分类任务的本质就是在特征空间切分。而其实我们的特征有四种,但是那样建立起来就不是平面,很难划分。如果我们在平面可以建立的话,那么在高维空间同理,只是更加。
特征可以很抽象,每个像素点都可以当作特征,如果是彩色图像特征更多。