分类树及解析

最新推荐文章于 2023-01-21 12:22:01 发布

望月斩

最新推荐文章于 2023-01-21 12:22:01 发布

阅读量442

点赞数

文章标签：分类机器学习 python

本文链接：https://blog.csdn.net/weixin_59959097/article/details/126464018

版权

# 不纯度：用来衡量一个系统的混乱程度纯度，纯度越高，分类效果越好，反之效果较差

# 信息熵：指的是客观上，一个事情的不确定性，不确定性随着信息熵的增大而增大

# 信息增益 ：通过已知信息使未知集合的不确定性减少的程度，
# 父节点的信息熵减去子节点的信息熵

# 基尼指数：基尼指数越小说明一个集合中被分错的概率越小 不纯度越低
# 基尼系数 = 样本被选中的概率 * 被分错的概率

# 不纯度可以由基尼系数或者信息熵算
import os
import numpy as np
import pandas as pd
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn import tree
import graphviz

os.environ["PATH"] += os.pathsep + r'D:\cut\Graphviz\bin/'
wine = load_wine()

data = wine.data  # 数据
target = wine.target  # 标签
feature = wine.feature_names  # 特征值

# data = pd.concat([pd.DataFrame(data), pd.DataFrame(target)], axis=1)
# print(pd.DataFrame(data, columns=feature))

x_train, x_test, y_train, y_test = train_test_split(data, target, test_size=0.7, random_state=20)

clf = tree.DecisionTreeClassifier(criterion="entropy", ra