【数据挖掘笔记】分类

YWP_2016

已于 2022-05-06 10:18:23 修改

阅读量1.3k

点赞数 6

分类专栏： ML 文章标签：数据挖掘分类

于 2021-10-24 18:59:16 首次发布

本文链接：https://blog.csdn.net/ywp_2016/article/details/120935499

版权

ML 专栏收录该内容

13 篇文章 4 订阅

订阅专栏

理论

Hunt算法是许多决策树算法的基础，包括ID3、C4.5和CART
增益率（gain ratio）：如决策树算法C4.5，采用增益率的划分标准来评估划分
树剪枝tree-pruning：决策树过大容易过拟合overfitting，通过树剪枝（修剪初始决策树的分支），减小决策树的规模，提高决策树的泛化能力
分类模型的误差：训练误差（training error）、泛化误差（generalization error）。一个好的分类模型不仅要能够很好地拟合训练数据，还需对未知样本进行准确的分类。
注意：决策树很小时，训练和检验误差都很大——模型拟合不足（model underfitting），这是因为模型尚未学习到数据的真实结构。随着决策树中结点数增加，训练和检验误差都降低。然而，一旦树的规模太大，即使训练误差还在继续降低，但检验误差开始增大——模型过分拟合（model overfitting）。
奥卡姆剃刀：给定两个具有相同泛化误差的模型，较简单的模型比较复杂的模型更可取。
交叉验证：二折交叉验证：数据分为两个相同大小的子集，首先选择其一作为训练集，另一个作为检验集，然后交换两个集合的角色。k二折交叉验证：数据分为k个相同大小的子集，选择其一作为检验集，其余全作为训练集，重复k次，使得每份数据都用于检验恰好一次。
k二折交叉验证的特殊情况：留一leave out方法：k=N（数据集大小）
分类的一般过程：学习阶段（构建分类模型）+分类阶段（使用模型预测给定数据的类标号）

半监督分类

使用有类标号+无类标号的数据 构建分类器

主动学习

迭代的监督学习，适合数据丰富但类标号稀缺的情况。

该学习算法是主动的，因其有目的地向用户询问类标号。

目标：使用尽可能少的有标号示例获得高准确率。

迁移学习

改编已有的分类模型→用于目标任务

理论+实践

基于规则的分类器

分类规则质量的度量指标：覆盖率coverage（规则覆盖的比率）、准确率accuracy（在它覆盖的元组中，能被规则正确分类的比率）

基于规则的分类器所产生的的规则集的两个重要性质：互斥规则（不存在两条规则被同一记录出发，即规则是互斥的）、穷举规则（每条记录都至少被一条规则覆盖）→→→保证每条记录被且仅被一条规则覆盖。
提取分类规则的方法：直接方法（直接从数据中提取分类规则）、间接方法（从其他分类模型（如决策树和神经网络）提取分类规则）。【原则上，决策树从根节点到叶结点的每条路径=都可表示为一条分类规则】

决策树分类

∈监督学习
优点：无需任何领域知识或参数设置，因而适合探测式知识发现；能够处理高维数据；树形式表示直观，易于理解。
噪声/离群点——树剪枝，识别并剪去此类分枝
各类决策树算法：ID3（Iterative Dichotomister, ID3）、C4.5（ID3的后续）、CART（Classification and Regression Trees）——各自使用不同的属性选择度量（选择分裂准则）：信息增益（ID3使用；在决策树算法的学习过程中，信息增益是特征选择的一个重要指标，它定义为一个特征能够为分类系统带来多少信息，带来的信息越多，说明该特征越重要，相应的信息增益也就越大）、增益率（C4.5使用）、基尼指数（Gini指数，CART使用；与熵一样，基尼系数表征的也是事件的不确定性，将熵定义式中的“-logpi”替换为 1-pi 就是基尼系数）
决策树归纳的增量版本：重构从先前训练数据学习得到的决策树，而非从头开始学习一棵新树。

import numpy as np
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap
from matplotlib.font_manager import FontProperties
from sklearn import datasets
from sklearn.tree import DecisionTreeClassifier
plt.show()
plt.rcParams['font.sans-serif']=['SimHei']

############获取数据############
iris_data = datasets.load_iris()
X = iris_data.data[:, [2, 3]]
y = iris_data.target
label_list = ['山鸢尾', '杂色鸢尾', '维吉尼亚鸢尾']

############构建决策边界############
def plot_decision_regions(X, y, classifier=None):
    marker_list = ['o', 'x', 's']
    color_list = ['r', 'b', 'g']
    cmap = ListedColormap(color_list[:len(np.unique(y))]) # 背景色

    # 生成网格点坐标矩阵
    x1_min, x1_max = X[:, 0].min()-1, X[:, 0].max()+1
    x2_min, x2_max = X[:, 1].min()-1, X[:, 1].max()+1
    t1 = np.linspace(x1_min, x1_max, 666)
    t2 = np.linspace(x2_min, x2_max, 666)
    x1, x2 = np.meshgrid(t1, t2) # 生成网格点坐标矩阵
    y_hat = classifier.predict(np.array([x1.ravel(), x2.ravel()]).T)
    y_hat = y_hat.reshape(x1.shape)
    plt.contourf(x1, x2, y_hat, alpha=0.2, cmap=cmap)   # 绘制轮廓等高线  alpha参数设置透明度
    plt.xlim(x1_min, x1_max)
    plt.ylim(x2_min, x2_max)

    # plot class samples
    for ind, clas in enumerate(np.unique(y)):
        plt.scatter(X[y == clas, 0], X[y == clas, 1], alpha=0.8, s=50,
                    c=color_list[ind], marker=marker_list[ind], label=label_list[clas])


############训练模型############
tree = DecisionTreeClassifier(criterion='gini', max_depth=5, random_state=1)
tree.fit(X, y)

############可视化############
plot_decision_regions(X, y, classifier=tree)
plt.xlabel('花瓣长度（cm）')
plt.ylabel('花瓣宽度（cm）')
plt.legend()
plt.show()

贝叶斯分类

对属性集和类变量的概率关系建模

朴素贝叶斯分类器

朴素贝叶斯分类假定一个属性值在给定类上的影响 独立于其他属性值，该假定即“类条件独立性”。做该假定是为了简化计算，并在此意义下称为“朴素的”。
估计类条件概率时，假设属性之间条件独立：如果P(X,Y|Z)=P(X|Z)P(Y|Z)，或等价地P(X|Y,Z）=P(X|Z），则称事件X,Y对于给定事件Z是条件独立的，也就是说，当Z发生时，X发生与否与Y发生与否是无关的。

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB, GaussianNB
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap
from matplotlib.font_manager import FontProperties
import numpy as np
import matplotlib as mpl
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
plt.rcParams['font.sans-serif']=['SimHei']

############获取数据############
iris_data = datasets.load_iris()
X = iris_data.data[:, :2]
y = iris_data.target
label_list = ['山鸢尾', '杂色鸢尾', '维吉尼亚鸢尾']


############构建决策边界############
def plot_decision_regions(X, y, classifier=None):
        marker_list = ['o', 'x', 's']
        color_list = ['r', 'b', 'g']
        cmap = ListedColormap(color_list[:len(np.unique(y))])  # 背景色

        # 生成网格点坐标矩阵
        x1_min, x1_max = X[:, 0].min() - 1, X[:, 0].max() + 1
        x2_min, x2_max = X[:, 1].min() - 1, X[:, 1].max() + 1
        t1 = np.linspace(x1_min, x1_max, 666)
        t2 = np.linspace(x2_min, x2_max, 666)
        x1, x2 = np.meshgrid(t1, t2)  # 生成网格点坐标矩阵
        y_hat = classifier.predict(np.array([x1.ravel(), x2.ravel()]).T)
        y_hat = y_hat.reshape(x1.shape)
        plt.contourf(x1, x2, y_hat, alpha=0.2, cmap=cmap)  # 绘制轮廓等高线  alpha参数设置透明度
        plt.xlim(x1_min, x1_max)
        plt.ylim(x2_min, x2_max)

        # plot class samples
        for ind, clas in enumerate(np.unique(y)):
                plt.scatter(X[y == clas, 0], X[y == clas, 1], alpha=0.8, s=50,
                            c=color_list[ind], marker=marker_list[ind], label=label_list[clas])


############训练模型############
clf = Pipeline([
         ('sc', StandardScaler()),
         ('clf', GaussianNB())])
ir = clf.fit(X, y.ravel()) # 利用训练数据进行拟合

############可视化############
plot_decision_regions(X, y, classifier=clf)
plt.xlabel('花萼长度（cm）')
plt.ylabel('花萼宽度（cm）')
plt.legend()
plt.show()

贝叶斯信念网络

Bayesian belief networks, BBN 贝叶斯网络/信念网络/概率网络：不要求给定类的所有属性都条件独立，而是允许指定哪些属性条件独立
因数据和先验知识以概率方式相结合，故该方法对模型的过拟合是非常鲁棒的

人工神经网络

感知器Perceptron：对输入加权求和，减去偏置因子，然后考察结果的符号→→得到输出值y。训练：不断调整权值参数w，直到输出和训练样例的实际输出一致。

多层人工神经网络：比感知器（单层的前馈神经网络）结构复杂，因网络输入层和输出层之间可能包含多个中间层（隐藏层）。【前馈free-forward神经网络：每层结点仅和下一层结点相连】【递归recurrent神经网络：允许同一层结点相连或一层结点连到前面各层结点】
激活函数：激活函数是用来加入非线性因素的，解决线性模型所不能解决的问题。
梯度下降方法：可用于学习神经网络中输出结点和隐藏结点的权值。【反向传播：梯度下降算法的每次迭代包括前向+后向阶段。前向：使用前一次迭代所得到的权值，计算网络中每个神经元的输出值，即先计算第k层神经元的输出，再计算第k+1层的输出。反向：使用第k+1层神经元的误差→估计第k层神经元的误差】

支持向量机

工作流程：使用一种非线性映射，将原训练数据映射到较高维，在新的维上，它搜索最佳分离超平面（即将一个类的元组与其他类分离的“决策边界”）。到足够高维的、合适的非线性映射，两个类的数据总能被超平面分开。
SVM 高维数据：能够很好地应用于高维数据，避免维灾难。
SVM 决策边界：它使用训练实例的一个子集【即支持向量】表示决策边界

SVM特质：SVM学习问题可以表示为凸优化问题，因而可以利用已知的有效算法发现目标函数的全局最小值；而其他分类方法（如基于规则的分类器、人工神经网络）都采用一种基于贪心学习的策略来搜索假设空间——一般只能获得局部最优解。

频繁模式分类

关联规则分类：①挖掘数据，得到频繁项集；②分析频繁项集，产生每个类的关联规则（满足置信度与支持度标准）；③形成基于规则的分类器。

组合方法

随机森林：专门为决策树分类器设计的组合方法

混淆矩阵、准确率、精准率（查准率，precision）、召回率（查全率，recall）
来自：精确率、召回率、F1 值、ROC、AUC 各自的优缺点是什么？ - 东哥起飞的回答 - 知乎 https://www.zhihu.com/question/30643044/answer/510317055

文献阅读

赵秦怡,王丽珍,罗桂兰.基于co-location模式的空间分类算法[J].计算机应用与软件,2018,35(03):225-229.

背景：在特定的空间分类任务中，对象的类别和自身属性相关较小，和近邻对象的空间特征相关较大，传统的空间分类方法并不适用。
方法：提出一种基于co-location模式的空间分类挖掘算法。算法挖掘含不同类别特征的空间co-location模式，转化为分类规则，获得兴趣度较高的分类规则集。分类阶段先查询待分类对象的空间近邻，概化为空间特征，挑选适应的分类规则进行分类。
结果：实验结果表明这是一种高效的空间分类算法。

YWP_2016

关注

6
点赞
踩
11

收藏

觉得还不错? 一键收藏
2
评论
【数据挖掘笔记】分类

理论Hunt算法是许多决策树算法的基础，包括ID3、C4.5和CART 增益率（gain ratio）：如决策树算法C4.5，采用增益率的划分标准来评估划分树剪枝tree-pruning：决策树过大容易过拟合overfitting，通过树剪枝（修剪初始决策树的分支），减小决策树的规模，提高决策树的泛化能力分类模型的误差：训练误差（training error）、泛化误差（generalization error）。一个好的分类模型不仅要能够很好地拟合训练数据，还需对未知样本进行准确的分类。
复制链接

扫一扫