有监督学习及决策树

最新推荐文章于 2024-07-29 10:33:00 发布

小赵小赵睡个好觉

最新推荐文章于 2024-07-29 10:33:00 发布

阅读量550

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_45876155/article/details/104790945

版权

本文介绍了有监督学习的基本原理，包括分类和回归问题，以水果好坏预测和青少年身高预测为例进行说明。接着，重点讲解了决策树算法，通过sklearn的红酒数据集展示了决策树的构建过程，并讨论了防止过拟合的剪枝策略，强调了max_depth参数的重要性。

摘要由CSDN通过智能技术生成

有监督的机器学习即标签（label）已知的机器学习。在训练阶段，我们要事先告知机器，如果我输入样本x，你要输出对应的数据y。重复多次后，机器就会学到一个输入数据和输出数据之间的关系或规则。在测试阶段，在面对一个未知标签的测试样本x’时，机器会根据学到的关系或规则，判断输出最合理的y’。

有监督的机器学习分为分类（classification）和回归（Regression）两大问题，二者的区别在于标签是离散的还是连续的。

对于分类问题，比如预测一个水果的好坏，首先对足够多的水果的不同属性进行记录，如颜色、气味、体积、重量等，同时还要知道每个水果是好还是坏。将这些数据输入机器，让机器去学习水果的这些属性和水果好坏的关系。面对一个不知道是好还是坏的水果，我们将这个水果的各个属性输入机器，机器就会判断这个水果更可能是好还是坏。

对于回归问题，比如预测一个青少年的身高，首先记录足够多的可能对青少年的身高有影响的因素的情况，如运动、饮食、睡眠、基因等，并记录其在成年后的身高。将数据输入机器，让机器去学习这些因素与身高的关系。面对一个即将步入青少年时期的孩子，我们输入这个孩子在上述因素的情况，机器就会预测这个孩子成年后最有可能的身高范围。

水果的好坏是离散的，青少年的身高是连续的，但离散和连续没有太大区别。我们可以对不同水果进行打分，最后的分数是连续的，再划定一个阈值，只有大于这个阈值的水果才算作是好水果，这样就把连续的水果分数转换为离散的水果质量。青少年的身高是连续的，但是我们可以划定几个阈值，如1.5米，1.6米，1.7米，1.8米，1.9米，