机器学习-决策树(基于Python实现)
概述
决策树(decision tree)是机器学习中一种非常重要的模型,主要的策略是分而治之。
决策树一般被用于分类问题(分类问题即对应离散的分布律,可以直观地求对应的其信息熵),但有时也可用于回归任务(如CART回归树)。
单变量决策树(univariate decision tree)的分类边界总是垂直于坐标轴的(如:敲声=清脆?, 密度<3.0560?),这样的分类边界可以容易地化为有限个,对于连续变量,将出现的值划分到不同bins即可。当边界形状复杂时,往往需要采用多变量决策树(multivariate decision tree),每次将采用特征的线性组合,而不是仅仅采用某一个最佳特征作为划分依据。
这里的理论和算法部分基于西瓜书第四章,实现采用的是python和常用的矩阵计算、数据分析库: numpy, pandas, matplotlib, pytorch等。
设计代码
见https://gitee.com/yangtao2019yt/pytorch_learning/tree/master/machine_learning_by_torch/decision_tree。
设计方案
ID3
C4.5
CART
其他
asd
参考资料
[1] 机器学习, 清华大学出版社, 周志华,