机器学习算法入门梳理——决策树的分类预测详解

最新推荐文章于 2022-11-17 18:50:15 发布

czslxk

最新推荐文章于 2022-11-17 18:50:15 发布

阅读量1k

点赞数

分类专栏：机器学习算法入门文章标签：决策树 python 机器学习算法

本文链接：https://blog.csdn.net/weixin_45717457/article/details/108190469

版权

本文介绍了决策树的基础知识，包括决策树的概念、信息熵、基尼系数和剪枝。通过实例展示了如何使用决策树进行分类，并讨论了其优缺点。决策树在金融风控、医疗诊断等领域有广泛应用，其解释性强且计算复杂度低，但易过拟合，需要剪枝处理。

摘要由CSDN通过智能技术生成

基于决策树的分类预测

机器学习算法详解，day2 打卡！

决策树概念
信息熵
基尼系数
剪枝
总结

1. 决策树的概念

决策树（decision tree）也是机器学习中的一个重要算法，但是我们可能平时在决策的时候就常常用到，比如以下天气和怎么出行的问题：
在这里插入图片描述
决策树是一种非参数学习算法，可以解决分类（包括多分类）问题，还可以解决回归问题。

如下的例子，用 iris 简单看一下决策树。

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn import datasets

iris = datasets.load_iris()

iris_all = pd.DataFrame(data=iris.data, columns=iris.feature_names).copy()
# target = iris.target

iris_all['target'] = iris.target

# 为了方便可视化，仅使用两个特征
iris = iris_all.iloc[:,2:]

sns.scatterplot(data=iris, x = iris.columns.values[0], y = iris.columns.values[1],hue='target',palette="Set1")
plt.show()

# 决策边界函数
def plot_boundary(model, X, y):
    x_min, x_max = X[:, 0].min() - .5, X[:, 0].max() + .5
    y_min, y_max = X[:, 1].min() - .5, X[:, 1].max() + .5
    
    h = .02  # step size in the mesh
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))
    Z = model.predict(np.c_[xx.ravel(), yy.ravel()])

    # Put the result into a color plot
    Z = Z.reshape(xx.shape)
    plt.figure(1, figsize=(4, 3))
    plt.pcolormesh(xx, yy, Z, cmap=plt.cm.Set3_r)

    # Plot also the training points
    plt.scatter(X[:, 0], X[:, 1], c=y, edgecolors='k', cmap=plt.cm.Accent)
    plt.show()

from sklearn.tree import DecisionTreeClassifier

np.random.seed(2)
iris = datasets.load_iris()
X = iris.data[:,2:]
y = iris.target

dt_clf = DecisionTreeClassifier(max_depth=2, criterion='entropy',) # max_depth 最大深度；criterion选择熵
dt_clf.fit(X, y)

plot_boundary(dt_clf, X, y)