1.2数据挖掘的基本流程
1.2.1 数据挖掘模式分类
本小节主要介绍数据挖掘的模式分类。
根据训练数据是否拥有标记信息:
○监督学习
○非监督学习
○半监督学习
根据应用角度:
○分类
○回归
○聚类
○神经网络
○预处理
○特征选择
○……
分类:
○对现有的数据进行学习,得到一个目标函数或者规则,把每个数据集x映射到一个预先定义的类标号y上。
○下图的分类案例为识别手写数字图像。
回归:
○回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好的拟合实测数据。
○下图的回归案例为将299个增强(300个决策树)与单个决策树回归器进行比较,属于AdaBoost决策树回归算法。
聚类:
○将数据对象分组成为多个类或者簇,它的目标是:在同一个簇中的对象之间具有较高的相似度,而不同簇中对象差别较大。
○下图的聚类案例为查找高密度的核心样本并从中扩展聚类,属于DBSCAN聚类算法。
神经网络:
○由众多的神经元可调的连接权值连接而成,具有大规模并行处理、分布式信息存储、良好的自组织自学习能力等特点。
○下图的神经网络案例为MNIST数据集上训练的MLPClassifier中的第一层权重。
数据预处理:
○在工程实践中,我们得到的数据会存在有缺失值、重复值、单位不统一等问题,在使用之前需要进行数据预处理。
○下图的预处理案例为未缩放的数据与StandardScaler缩放的数据应用PCA之后的可视化图进行比较。第一个图中各个特征的数量级相差较大,第二个图中所有特征的数量级大致相同。通过朴素贝叶斯分类器后StandarScaler缩放的数据的预测精度远大于未缩放的数据。
特征选择:
○将高维空间的样本通过映射或者是变幻的方式转换到低维空间,达到降维的目的,然后通过特征选取删选掉冗余和不相关的特征来进一步降维。
○下图的特征选择案例为通过交叉验证选择特征数量。最佳特征数量是3。
数据挖掘的误区:
○数据挖掘是人们处理商业问题的某些方法,通过适量的数据挖掘来获得有价值的结果,最好的数据挖掘工程师往往是那些熟悉和理解业务的人。
○一个平台不会因为数据挖掘就变成金钥匙,反而一个拥有数据挖掘思维的人员才是关键,而且他还必须对业务数据有深刻的认识,这样才可能从数据中导出模式指引业务的改善。