统计学习方法第五章作业：ID3/C4.5算法分类决策树、平方误差二叉回归树代码实现

最新推荐文章于 2024-01-29 18:09:44 发布

是算法不是法术

最新推荐文章于 2024-01-29 18:09:44 发布

阅读量478

点赞数

分类专栏：统计学习方法文章标签：决策树算法 python 机器学习

本文链接：https://blog.csdn.net/weixin_45839693/article/details/109759460

版权

这篇博客介绍了如何使用ID3/C4.5算法进行分类决策树的构建，并探讨了平方误差二叉回归树的实现，通过Python展示了机器学习中的决策树算法应用。

摘要由CSDN通过智能技术生成

ID3/C4.5算法分类决策树

import numpy as np
import math
class Node:
    def __init__(self,feature_index=None,value=None,label=None):
        self.feature_index=feature_index
        self.value=value
        self.child=[]
        self.label=label


class C4_5:
    def __init__(self,X,Y,c=0.1,way='ID3'):
        self.c = c
        self.root=Node()
        self.X = X
        self.Y = Y
        self.feature_num = len(X[0])
        self.label_num = len(Y)
        self.feature_set = list(range(self.feature_num))
        self.getac()
        self.way = way

    def getac(self):
        self.dict_x = {
   }
        self.dict_y = set(self.Y)
        for i in range(self.feature_num):
            self.dict_x[i] = set([X[i] for X in self.X])

    @staticmethod
    def get_label(list_):
        return max(list_, key=list_.count)

    @staticmethod
    def count_Y(Y):
        dict_y = {
   }
        for i in Y:
            if i in dict_y.keys():
                dict_y[i]+=1
            else:
                dict_y[i] = 1
        return dict_y

    def experience_entropy(self,Y):
        dict_y = self.count_Y(Y)
        D = len(Y)
        set_y = set(Y)
        return -sum([dict_y[x]/D*math.log(dict_y[x]/D,2) for x in set_y])

    def get_feature(self,X,Y,rest_x):
        HD = self.experience_entropy(Y)
        Y = np.array(Y)
        X = np.array(X)
        entropy_ = []

        if self.way == 'ID3':
            for i in rest_x:
                sum_ = 0
                list_x = np.array([x[i] for x in X])
                for j in self.dict_x[i]:
                    sum__ = 0
                    Di = sum(list_x == j)
                    if Di != 0:
                        for m in self.dict_y:
                            Dik = sum(Y[list_x == j]==m)
                            if Dik != 0:
                                sum__ += Dik/Di*math.log(Dik/Di,2)
                    sum_ -= Di/len(list_x)*sum__
                add_entropy = HD - sum_
                entropy_.append(add_entropy)

        if self.way == 'C45':
            for i in rest_x:
                sum_ = 0
                list_x = np.array([x[i] for x in X])
                for j in self.dict_x[i]:
                    sum__ = 0
                    HAD = 0
                    Di = sum(list_x == j)
                    if Di != 0:
                        for m in self.dict_y:
                            Dik = sum(Y[list_x == j]==m)
                            if Dik != 0