利用sklearn库决策树模型对iris数据多分类并进行评估

最新推荐文章于 2024-07-08 10:15:07 发布

派大星的猪宝宝

最新推荐文章于 2024-07-08 10:15:07 发布

阅读量3.1k

点赞数 2

文章标签： sklearn 决策树分类

本文链接：https://blog.csdn.net/xst66666/article/details/127721296

版权

1.导入所需要的库

from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris

2.加载iris数据

iris = load_iris()

x, y = iris.data, iris.target

在这里我们输出前十行的iris.data看看

print(x[:10,:])

3.使用sklearn库对iris数据集进行乱序切分为训练集和测试集(7:3比例)

from sklearn.model_selection import train_test_split

from sklearn.metrics import classification_report

x_train, x_test, y_train, y_test = train_test_split(x,y,test_size=0.3)

切分训练集和测试集这里我们使用train_test_split()，test_size为测试集所占的比例。

sklearn的train_test_split()各函数参数含义解释（非常全） - The-Chosen-One - 博客园

4.使用决策树模型对测试集进行分类

decisionTree = DecisionTreeClassifier()

decisionTree.fit(x_train, y_train)#训练决策树

y_predict = decisionTree.predict(x_test)#在x_test上进行测试

5.利用classification_report()对分类的结果进行评估

print(classification_report(y_test,y_predict))

详细介绍见博客https://blog.csdn.net/weixin_48964486/article/details/122881350

6.使用sklearn库的决策树模型对iris数据集进行10折交叉验证，评估每折的正确率，并计算平均准确率:

K折交叉验证：将训练集分成K份，每次用其中一份做测试集，其余的k-1份作为训练集，循环k次，取每次训练结果的平均值作为评分。

from sklearn.model_selection import cross_val_score# 声明决策树模型

decisionTree = DecisionTreeClassifier() #定义决策树模型

# K折交叉验证(K=10)

scores = cross_val_score(decisionTree,x,y,cv=10) #算出10折交叉验证每折的准确率

# 打印10次准确率

for i, score in enumerate(scores):

    print('{:d}: {:.2f}%'.format(i, 100*score))

# 打印平均准确率

print('Average Accuracy: {:.2f}%'.format(100*scores.mean()))

7.修改决策树模型中的参数(如criterion、max_depth、spliter等)评估10折交叉验证下的平均准确率，至少验证4组不同参数的决策树模型

params_list = (

    {'criterion': 'gini', 'max_depth': None, 'splitter': 'best'},

    {'criterion': 'gini', 'max_depth': None, 'splitter': 'random'},

    {'criterion': 'entropy', 'max_depth':None,'splitter':'best'},

    {'criterion': 'gini', 'max_depth':5,'splitter':'best'}

)

for params in params_list:# 声明决策树模型

        print('model params:', params)

       decisionTree=DecisionTreeClassifier(criterion=params['criterion'],max_depth=params['max_depth'],splitter=params['splitter']) 

         # K折交叉验证(K=10)

         scores =cross_val_score(decisionTree,x,y,cv=10)  # 你的代码

         # 打印平均准确率

        print('Average Accuracy: {:.2f}%'.format(100*scores.mean()))