有没有想过为什么监督学习中“分类”占了一大半?
监督学习是指有目标变量或预测目标的机器学习方法,包括分类和回归。对于分类来说,目标变量是样本所属的类别,在样本数据中,包含每一个样本的特征,如花朵颜色、花瓣大小,也包含这个样本属于什么类别,它是向日葵还是菊花,而这个类别就是目标变量。分类就是根据样本特征对样本进行类别判定的过程。对于回归来说,回归就是为了预测,比如预测北京的房价,每一套房源是一个样本,样本数据中也包含每一个样本的特征,如房屋面积、建筑年代等,房价就是目标变量,通过拟合出房价的直线预测房价,当然预测值越接近真实值越好,这个过程就是回归。
分类和回归的区别在于:分类的目标变量是标称型的,以电影分类为例,一部电影无非是动作片、爱情片、喜剧片、恐怖片等类别。而回归的目标变量是连续数值型的,如果预测鲍鱼的年龄,则可能是任意正数了。
目前学过的分类算法有:
KNN:
k-近邻算法,使用距离测量的方法进行分类。
原理是:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将数据的每个特征与样本集中数据对应的特征进行距离计算,然后提取样本集中特征最相似数据(最近邻)的分类标签。一般选择k(k不大于20)个最相似的数据,从k个数据中选择出现次数最多的分类,作为新数据的分类。
步骤是:
(1)计算待测点与已知类别数据集中的点的距离;
(2)按照距离升序排序;
(3)选取与待测点距离最小的k个点;
(4)计算前k个点所属类