【sklearn第十五讲】决策树之回归篇

本文主要探讨了使用sklearn库中的决策树进行回归问题的处理,详细介绍了决策树的复杂度、实际使用建议以及算法原理。强调了在处理高维数据时防止过拟合的方法,并提供了控制树结构的参数调整策略。同时,文章对比了不同决策树算法如ID3、C4.5和CART,以及回归问题中的分类原则和回归原则。
摘要由CSDN通过智能技术生成

机器学习训练营——机器学习爱好者的自由交流空间(入群联系qq:2279055353)

回归

使用类DecisionTreeRegressor, 决策树可以应用于回归问题。fit方法取输入数组X, y, 这里的y取浮点值而不是分类的整值。

from sklearn import tree
X = [[0, 0], [2, 2]]
y = [0.5, 2.5]
clf = tree.DecisionTreeRegressor()
clf = clf.fit(X, y)
clf.predict([[1, 1]])

复杂度

通常,构建一棵平衡的二值树的运行时间代价是 O ( n s a m p l e s n f e a t u r e s log ⁡ n s a m p l e s ) O(n_{samples}n_{features}\log n_{samples}) O(nsamplesnfeatureslognsamples), 查询时间是 O ( log ⁡ n s a m p l e s ) O(\log n_{samples}) O(lognsamples). 尽管建树算法试图产生平衡的树,但结果树并不总是平衡的。假设子树维持大致的平衡,在每一个节点的代价包括搜遍 O ( n f e a t u r e s ) O(n_{features}) O(nfeatures) 到找到提供最大熵减少量的特征。在每个节点的代价 O ( n f e a t u r e s n s a m p l e s log ⁡ n s a m p l e s ) O(n_{features}n_{samples}\log n_{samples}) O(nfeaturesnsampleslognsamples), 这样,加和所有节点的代价得到整棵树的总的代价是 O ( n f e a t u r e s n s a m p l e s 2 log ⁡ n s a m p l e s ) O(n_{features}n_{samples}^2\log n_{samples}) O(nfeaturesnsamples2lognsamples).

Scikit-learn提供了更加有效的决策树构建执行。一个naive执行是,重新计算类标签直方图(分类问题),或者沿着一个给定的特征,在每个新分割点的均值(回归问题)。在所有相关的样本上预先排序特征,保持一个运行标签计数,将减少每个节点的复杂度到 O ( n f e a t u r e s log ⁡ n s a m p l e s ) O(n_{features}\log n_{samples}) O(nfeatureslognsamples), 这样,整个代价是 O ( n s a m p l e s n f e a t u r e s log ⁡ n s a m p l e s ) O(n_{samples}n_{features}\log n_{samples}) O(nsamplesnfeat

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值