Learning machine learning algorithm(二)

最新推荐文章于 2024-03-14 20:40:03 发布

松阁~

最新推荐文章于 2024-03-14 20:40:03 发布

阅读量351

点赞数 2

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_45753059/article/details/108169486

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

机器学习——决策树

Principle

决策树(decision tree)：是一种基本的分类和回归方法，在分类问题中，表示基于特征对数据进行分类的过程，可以认为是if-then的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。

直观说明
决策树，顾名思义，树为形，决策为本。事实上，其原理类似于问答猜测结果，根据一系列问题，进行猜测最终得到正确答案。
在这里插入图片描述
上图表示一个决策树流程，正方形代表判断模块，椭圆（即叶子节点）代表终止模块，表示已经得出结果，可以终止运行。

Structure

决策树学习的算法通常是一个递归地选择最优特征，并根据该特征对训练数据进行分割，使得各个子数据集有一个最好的分类的过程。这一过程对应着特征空间的划分，也对应着决策树的构建。

a.构建根节点，将所有训练数据都放在根节点，选择一个最优特征，按照这一特征将训练数据分割成子集，使得各个子集有一个在当前分类条件下最好的分类
b.如果这些子集已经能够被大致分类正确，则可构造叶子节点，并将这些子集分到所对应得叶子节点中去
c.如果还有子集不能够被正确地分类，那么就对这些子集选择新的最优特征，继续对其进行分割，构造相应的节点，递归进行，直至所有训练子集大致被正确分类，或者没有合适的特征为止。

上述为建树过程，事实上，一个决策树还需要经过剪枝等操作。在此可总结一下，一棵具有较好分类效果的决策树需要经过以下几个步骤：1.特征选择 2.建树 3.剪枝

至于为什么需要进行剪枝操作，可先分析一下决策树的特点/优缺点，对症下药。

缺点：过拟合，之所以会导致过拟合，是因为在利用决策树算法生成决策树时，每一个特征（属性）都被详细地加以考虑，决策树的树叶节点所覆盖的训练样本基本上都是"纯"的。对于训练数据而言这种效果非常好，但是对于测试数据，我们所构建的决策树表现出来的分类效果可能就不会太好。

优点：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不相关特征数据。

Practice

选择企鹅数据（palmerpenguins）进行数据分析练习。该数据集一共包含8个变量，其中7个特征变量，1个目标分类变量，共有150个样本。目标变量为企鹅的三个亚属，分别是(Adélie, Chinstrap and Gentoo)。7个特征变量包含企鹅的七个特征，分别是所在岛屿，嘴巴长度，嘴巴深度，脚蹼长度，身体体积，性别以及年龄。

##Step 1:函数库导入
##  基础函数库
import numpy as np 
import pandas as pd

## 绘图函数库
import matplotlib.pyplot as plt
import seaborn as sns

##Step 2:数据读取/载入
## 利用Pandas自带的read_csv函数读取并转化为DataFrame格式

data = pd.read_csv('datalab/531811/Datawhale/penguins_raw.csv')
## 为了方便仅选取四个简单的特征
data = data[['Species','Culmen Length (mm)','Culmen Depth (mm)',
            'Flipper Length (mm)','Body Mass (g)']]
            
##Step 3:数据信息简单查看     
## 利用.info()查看数据的整体信息
data.info()
## 进行简单的数据查看，可以利用 .head() 头部.tail()尾部
data.head()
##数据填充
data = data.fillna(-1)
##利用unique（）函数查看不重复值(类)
data['Species'].unique()
## 利用value_counts函数查看每个类别数量
pd.Series(data['Species']).value_counts()
## 对于特征进行一些统计描述
data.describe()

##Step 4:可视化描述
## 特征与标签组合的散点可视化
sns.pairplot(data=data, diag_kind='hist', hue= 'Species')
plt.show()