数据挖掘导论学习笔记（二）

最新推荐文章于 2023-03-09 12:49:16 发布

进阶中的程序猿

最新推荐文章于 2023-03-09 12:49:16 发布

阅读量677

点赞数

分类专栏：数据挖掘导论基础知识文章标签：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/x18845040365/article/details/83995701

版权

本文详细介绍了数据挖掘中探索数据的方法，包括汇总统计（如均值、中位数、百分位数）、散布度量（如极差、方差）以及多元汇总统计。此外，还探讨了数据可视化的各种技术，如茎叶图、直方图、盒状图、饼图、散布图等，以及如何可视化时间空间和高维数据。数据立方体的概念和操作，如转轴、切片和切块，也在文中有所阐述。

摘要由CSDN通过智能技术生成

第三章探索数据
汇总统计：量化的（如均值和标准差），用单个数或数的小集合捕获可能很大的值集的各种特征。

频率：具有属性值vi的对象数/总数
分类属性的众数就是具有最高频率的值。

百分位数：给定一个有序的或连续的属性x和0到100之间的数p，第p个百分位数xp是一个x值，似的x的p%的观测值小于xp。

值集位置的度量：
（1）均值：平均值，对于离群值比较敏感
（2）中位数
截断均值：指0到100之间的百分位数p，丢弃高端和低端的p/2%的数据，然后用常规方法计算均值，就是阶段均值。
中位数是p=100的阶段均值，标准均值是p=0的阶段均值。

散布度量：
（1）极差：最大值减去最小值
（2）方差或标准差
因为均值可能被离群值扭曲，所以方差也可能对离群值敏感
更稳健的估计为：绝对平均偏差，中位数绝对偏差，四分位数极差

多元汇总统计：
（1）协方差矩阵
（2）相关矩阵
（3）值集倾斜度

可视化：指以图形或表格的形式显示信息。目标是可视化信息的人工解释和信息的意境模型的形成。
（1）将信息映射成可视化形式，即将信息中的对象属性和联系映射成可是的对象属性和联系。
对象用三种方法表示：
一：如果只考虑对象的单个分类属性，则通常根据该属性的值将对象聚成类，并

最低0.47元/天解锁文章

进阶中的程序猿

关注

0
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。