HCIE-Big Data 笔记

最新推荐文章于 2022-08-02 21:24:09 发布

Ave_lmy

最新推荐文章于 2022-08-02 21:24:09 发布

阅读量492

点赞数

文章标签：数据挖掘 big data 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44082865/article/details/122465601

版权

1.2数据挖掘的基本流程

1.2.1 数据挖掘模式分类

本小节主要介绍数据挖掘的模式分类。

根据训练数据是否拥有标记信息：

○监督学习

○非监督学习

○半监督学习

根据应用角度：

○分类

○回归

○聚类

○神经网络

○预处理

○特征选择

○……

分类：

○对现有的数据进行学习，得到一个目标函数或者规则，把每个数据集x映射到一个预先定义的类标号y上。

○下图的分类案例为识别手写数字图像。

回归：

○回归分析是通过规定因变量和自变量来确定变量之间的因果关系，建立回归模型，并根据实测数据来求解模型的各个参数，然后评价回归模型是否能够很好的拟合实测数据。

○下图的回归案例为将299个增强（300个决策树）与单个决策树回归器进行比较，属于AdaBoost决策树回归算法。

聚类:

○将数据对象分组成为多个类或者簇，它的目标是：在同一个簇中的对象之间具有较高的相似度，而不同簇中对象差别较大。

○下图的聚类案例为查找高密度的核心样本并从中扩展聚类，属于DBSCAN聚类算法。

神经网络：

○由众多的神经元可调的连接权值连接而成，具有大规模并行处理、分布式信息存储、良好的自组织自学习能力等特点。

○下图的神经网络案例为MNIST数据集上训练的MLPClassifier中的第一层权重。

数据预处理：

○在工程实践中，我们得到的数据会存在有缺失值、重复值、单位不统一等问题，在使用之前需要进行数据预处理。

○下图的预处理案例为未缩放的数据与StandardScaler缩放的数据应用PCA之后的可视化图进行比较。第一个图中各个特征的数量级相差较大，第二个图中所有特征的数量级大致相同。通过朴素贝叶斯分类器后StandarScaler缩放的数据的预测精度远大于未缩放的数据。

特征选择：

○将高维空间的样本通过映射或者是变幻的方式转换到低维空间，达到降维的目的，然后通过特征选取删选掉冗余和不相关的特征来进一步降维。

○下图的特征选择案例为通过交叉验证选择特征数量。最佳特征数量是3。

数据挖掘的误区：

○数据挖掘是人们处理商业问题的某些方法，通过适量的数据挖掘来获得有价值的结果，最好的数据挖掘工程师往往是那些熟悉和理解业务的人。

○一个平台不会因为数据挖掘就变成金钥匙，反而一个拥有数据挖掘思维的人员才是关键，而且他还必须对业务数据有深刻的认识，这样才可能从数据中导出模式指引业务的改善。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

目录

分类专栏

Linux 2篇
html
css 1篇
js 1篇
前端 1篇
后台 1篇

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Ave_lmy 你的鼓励是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。