【机器学习】监督学习:分类和回归

  有没有想过为什么监督学习中“分类”占了一大半?

  监督学习是指有目标变量或预测目标的机器学习方法,包括分类和回归。对于分类来说,目标变量是样本所属的类别,在样本数据中,包含每一个样本的特征,如花朵颜色、花瓣大小,也包含这个样本属于什么类别,它是向日葵还是菊花,而这个类别就是目标变量。分类就是根据样本特征对样本进行类别判定的过程。对于回归来说,回归就是为了预测,比如预测北京的房价,每一套房源是一个样本,样本数据中也包含每一个样本的特征,如房屋面积、建筑年代等,房价就是目标变量,通过拟合出房价的直线预测房价,当然预测值越接近真实值越好,这个过程就是回归。

  分类和回归的区别在于:分类的目标变量是标称型的,以电影分类为例,一部电影无非是动作片、爱情片、喜剧片、恐怖片等类别。而回归的目标变量是连续数值型的,如果预测鲍鱼的年龄,则可能是任意正数了。

目前学过的分类算法有:

 

KNN

k-近邻算法,使用距离测量的方法进行分类。

原理是:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将数据的每个特征与样本集中数据对应的特征进行距离计算,然后提取样本集中特征最相似数据(最近邻)的分类标签。一般选择k(k不大于20)个最相似的数据,从k个数据中选择出现次数最多的分类,作为新数据的分类。

步骤是:

(1)计算待测点与已知类别数据集中的点的距离;

(2)按照距离升序排序;

(3)选取与待测点距离最小的k个点;

(4)计算前k个点所属类

  • 10
    点赞
  • 53
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值