决策树(Decision Tree)
是一种非常常用的分类算法,也是一种预测模型。在已知各种情况发生概率的情况下,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,它代表的是对象属性与对象值之间的一种映射关系。
缺点:容易出现过拟合(overfitting)的情况,要在适当的时机停止决策树的生长。
from sklearn import tree
clf = tree.DecisionTreeClassifier()
clf.fit(features_train,labels_train)
pred = clf.predict(feature_test)
from sklearn.metrics import accuracy_score
acc = accuracy_score(pred, labels_test)
备注:在决策树算法中可以通过为决策树分类器添加参数(例如:min_samples_split)减少算法的复杂度。
熵(Entropy)
对于数据杂质存在而言,熵就是一种衡量数据中存在杂质程度的方法。在使用决策树时,很少需要处理对数底的细节,较低的熵指向更有条理的数据,而且决策树将此用作事件分类方式。
熵公式:Entropy = −∑