有监督学习及决策树

本文介绍了有监督学习的基本原理,包括分类和回归问题,以水果好坏预测和青少年身高预测为例进行说明。接着,重点讲解了决策树算法,通过sklearn的红酒数据集展示了决策树的构建过程,并讨论了防止过拟合的剪枝策略,强调了max_depth参数的重要性。
摘要由CSDN通过智能技术生成

有监督的机器学习即标签(label)已知的机器学习。在训练阶段,我们要事先告知机器,如果我输入样本x,你要输出对应的数据y。重复多次后,机器就会学到一个输入数据和输出数据之间的关系或规则。在测试阶段,在面对一个未知标签的测试样本x’时,机器会根据学到的关系或规则,判断输出最合理的y’。

有监督的机器学习分为分类(classification)和回归(Regression)两大问题,二者的区别在于标签是离散的还是连续的。

对于分类问题,比如预测一个水果的好坏,首先对足够多的水果的不同属性进行记录,如颜色、气味、体积、重量等,同时还要知道每个水果是好还是坏。将这些数据输入机器,让机器去学习水果的这些属性和水果好坏的关系。面对一个不知道是好还是坏的水果,我们将这个水果的各个属性输入机器,机器就会判断这个水果更可能是好还是坏。

对于回归问题,比如预测一个青少年的身高,首先记录足够多的 可能对青少年的身高有影响的因素的情况,如运动、饮食、睡眠、基因等,并记录其在成年后的身高。将数据输入机器,让机器去学习这些因素与身高的关系。面对一个即将步入青少年时期的孩子,我们输入这个孩子在上述因素的情况,机器就会预测这个孩子成年后最有可能的身高范围。

水果的好坏是离散的,青少年的身高是连续的,但离散和连续没有太大区别。我们可以对不同水果进行打分,最后的分数是连续的,再划定一个阈值,只有大于这个阈值的水果才算作是好水果,这样就把连续的水果分数转换为离散的水果质量。青少年的身高是连续的,但是我们可以划定几个阈值,如1.5米,1.6米,1.7米,1.8米,1.9米,

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值