非参数学习:对个别数据敏感 高度依赖于调参 生成一个较好的模型
决策边界:平行于 x y
经济学决策树建模 ==》 机器学习领域 用于集成学习方式创建随机森林 的算法=》可以得到较好的结果
右边比左边确定
右边没有任何不确定性 信息熵对应数据不确定性的度量
基尼系数:同样 数据不确定性度量
最大 在1/2 样本没有偏离 不确定性最大
两个度量 : 信息熵与基尼系数效果差不多 信息熵计算量<基尼系数 默认基尼系数 信息熵中有非线性运算
CART
决策树 决策边界 与xy 平行
高度是log(m) => 每一个维度(n) 每一个样本(m)都进行遍历
非参数学习容易过拟合 对个别数据敏感 减枝 =》对参数进行平衡
非过拟合:边界清晰 没有针对特殊样本进行划分
参数:数深度(越深越容易过拟合)
min_samples_split(节点样本数至少为多少 才进行划分 极端等于样本总量 不用划分了 欠拟合 )
min_samples_leaf=(叶子上至少有的样本数 越少 即一个样本一个叶子一个类 过拟合)