lesson3_决策树

Q1.采用信息增益、信息增益率作为决策树生长策略,有什么区别?

ANS:

ID3采用信息增益作为评价标准,会倾向于选择取值较多的特征。因为,信息增益反映的是给定条件以后不确定性减少的程度,特征取值越多就意味着确定性越高,也就是条件熵越小,信息增益越大。C4.5对ID3进行优化,通过引入信息增益比,一定程度上对取值较多的特征进行惩罚,避免ID3出现过拟合的特性,提升决策树的泛化能力。



Q2. 其他条件一致,对样本某变量进行单调非线性变化,是否会影响决策树生长,为什么?

ANS:

不会。


Q3. 随机森林参数有哪些重要的参数,分别的作用试什么?

ANS:

随机森林是基于bagging框架的决策树模型,因此随机森林的参数择优包括两部分:

(1)RF框架的参数择优:

n_estimators:对原始数据集进行有放回抽样生成的子数据集个数,即决策树的个数。若n_estimators太小容易欠拟合,太大不能显著的提升模型,所以n_estimators选择适中的数值。RF框架的参数很少,框架参数择优一般是调节n_estimators值,即决策树个数。

(2)RF决策树的参数择优:

max_features:构建决策树最优模型时考虑的最大特征数。默认是"auto",表示最大特征数是N的平方根;“log2"表示最大特征数是log_2{N} ;"sqrt"表示最大特征数是\sqrt{N}。如果是整数,代表考虑的最大特征数;如果是浮点数,表示对(N * max_features)取整。其中N表示样本的特征数。

max_depth:决策树最大深度。若等于None,表示决策树在构建最优模型的时候不会限制子树的深度。如果模型样本量多,特征也多的情况下,推荐限制最大深度;若样本量少或者特征少,则不限制最大深度。


Q4. 多个模型预测结果做Average融合,模型间具备怎样的特点会取得更好的效果?

ANS:

模型间的预测误差的关联性越低,效果越好。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值