HCIE-Big Data 笔记

1.2数据挖掘的基本流程

1.2.1 数据挖掘模式分类

       本小节主要介绍数据挖掘的模式分类。

根据训练数据是否拥有标记信息:

       ○监督学习

       ○非监督学习

       ○半监督学习

根据应用角度:

       ○分类

       ○回归

       ○聚类

       ○神经网络

       ○预处理

       ○特征选择

       ○……

分类:

       ○对现有的数据进行学习,得到一个目标函数或者规则,把每个数据集x映射到一个预先定义的类标号y上。

       ○下图的分类案例为识别手写数字图像。

回归:

回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好的拟合实测数据。

○下图的回归案例为将299个增强(300个决策树)与单个决策树回归器进行比较,属于AdaBoost决策树回归算法。

聚类:

      ○将数据对象分组成为多个类或者簇,它的目标是:在同一个簇中的对象之间具有较高的相似度,而不同簇中对象差别较大。

○下图的聚类案例为查找高密度的核心样本并从中扩展聚类,属于DBSCAN聚类算法。

神经网络:

       ○由众多的神经元可调的连接权值连接而成,具有大规模并行处理、分布式信息存储、良好的自组织自学习能力等特点。

       ○下图的神经网络案例为MNIST数据集上训练的MLPClassifier中的第一层权重。

数据预处理:

      ○在工程实践中,我们得到的数据会存在有缺失值、重复值、单位不统一等问题,在使用之前需要进行数据预处理。

       ○下图的预处理案例为未缩放的数据与StandardScaler缩放的数据应用PCA之后的可视化图进行比较。第一个图中各个特征的数量级相差较大,第二个图中所有特征的数量级大致相同。通过朴素贝叶斯分类器后StandarScaler缩放的数据的预测精度远大于未缩放的数据。

      

特征选择:

○将高维空间的样本通过映射或者是变幻的方式转换到低维空间,达到降维的目的,然后通过特征选取删选掉冗余和不相关的特征来进一步降维。

○下图的特征选择案例为通过交叉验证选择特征数量。最佳特征数量是3。

数据挖掘的误区:

       ○数据挖掘是人们处理商业问题的某些方法,通过适量的数据挖掘来获得有价值的结果,最好的数据挖掘工程师往往是那些熟悉和理解业务的人。

       ○一个平台不会因为数据挖掘就变成金钥匙,反而一个拥有数据挖掘思维的人员才是关键,而且他还必须对业务数据有深刻的认识,这样才可能从数据中导出模式指引业务的改善。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ave_lmy

你的鼓励是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值