文章大纲
- 介绍
- 决策树
- 如何构建决策树
- 树木构建算法
- 分类问题中裂缝的其他质量标准
- 决策树如何与数字特征一起工作
- 关键树参数
- 类
DecisionTreeClassifier
在Scikit学习 - 回归问题中的决策树
3.最近邻法
- 真实应用中最近邻方法
- 类
KNeighborsClassifier
在Scikit学习
4.选择模型参数和交叉验证
5.应用实例和复杂案例
- 客户流失预测任务中的决策树和最近邻法
- 决策树的复杂案例
- MNIST手写数字识别任务中的决策树和k-NN
- 最近邻法的复杂案例
6.决策树的优缺点和最近邻法
7.作业#3
8.有用的资源
以下材料最好用Jupyter notebook 阅读,如果您克隆course repository,可以使用Jupyter在本地复制。
1.简介
在我们深入研究本周文章的材料之前,让我们先谈谈我们要解决的问题类型以及它在激动人心的机器学习领域的地位。T. Mitchell的书“ 机器学习”(1997)给出了机器学习的经典定义如下:
A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.。
在各种问题设置中,T,P和E可以指代完全不同的事物。在机器学习中一些最流行的任务是以下几种:
- 根据其特征将实例分类到其中一个类别;
- 回归 - 基于实例的其他特征预测数值目标特征;
- 聚类 - 根据这些实例的特征识别实例的分组,以便组内的成员彼此更相似,而不是其他组中的成员;
- 异常检测 - 搜索与样本的其余部分或某些实例组“非常不同”的实例;
- 等等。
“深度学习”中的“机器学习基础”一章提供了很好的概述(Ian Goodfellow,Yoshua Bengio,Aaron Courville,2016)。
经验E指的是数据(没有它我们就不能去任何地方)。机器学习算法可以分为监督或无监督训练的算法。在无监督的学习任务中,人们有一组由一组特征描述的实例组成。在监督学习问题中,还有一个目标变量,这是我们希望能够预测的,对于训练集中的每个实例都是已知的。
例
分类和回归是监督学习问题。例如,作为信贷机构,我们可能希望根据客户累积的数据预测贷款违约。在这里,经验E是可用的训练数据:一组实例(客户),每个特征的集合(例如年龄,工资,贷款类型,过去的贷款违约等)和目标变量(是否他们拖欠贷款)。这个目标变量只是贷款违约的事实(1或0),所以请记住这是一个(二元)分类问题。如果您反而预测贷款支付的时间是多久,这将成为一个回归问题。
最后,机器学习定义中使用的第三个术语是算法性能评估P的度量。这些指标因各种问题和算法而异,我们将在研究新算法时对它们进行讨论。现在,我们将 在测试集上引用分类算法的简单度量,正确答案的比例 - 准确度。
让我们来看看两个监督的学习问题:分类和回归。
2.决策树
我们从最受欢迎的方法之一开始概述分类和回归方法 - 决策树。决策树用于日常生活决策,而不仅仅用于机器学习。流程图实际上是决策树的可视化表示。例如,高等经济学院发布信息图表,使员工的生活更轻松。以下是在Institution门户网站上发布论文的一小段说明。
在机器学习方面,人们可以将其视为一种简单的分类器,根据内容(书籍,小册子,论文),期刊类型,原始出版物类型(科学期刊,会议记录)等确定适当的出版形式(书籍,文章,书籍章节,预印本,出版物)。
决策树通常是专家经验的概括,是分享特定过程知识的一种手