数据挖掘导论学习笔记(二)

本文详细介绍了数据挖掘中探索数据的方法,包括汇总统计(如均值、中位数、百分位数)、散布度量(如极差、方差)以及多元汇总统计。此外,还探讨了数据可视化的各种技术,如茎叶图、直方图、盒状图、饼图、散布图等,以及如何可视化时间空间和高维数据。数据立方体的概念和操作,如转轴、切片和切块,也在文中有所阐述。
摘要由CSDN通过智能技术生成

第三章 探索数据
汇总统计:量化的(如均值和标准差),用单个数或数的小集合捕获可能很大的值集的各种特征。

频率:具有属性值vi的对象数/总数
分类属性的众数就是具有最高频率的值。

百分位数:给定一个有序的或连续的属性x和0到100之间的数p,第p个百分位数xp是一个x值,似的x的p%的观测值小于xp。

值集位置的度量:
(1)均值:平均值,对于离群值比较敏感
(2)中位数
截断均值:指0到100之间的百分位数p,丢弃高端和低端的p/2%的数据,然后用常规方法计算均值,就是阶段均值。
中位数是p=100的阶段均值,标准均值是p=0的阶段均值。

散布度量:
(1)极差:最大值减去最小值
(2)方差或标准差
因为均值可能被离群值扭曲,所以方差也可能对离群值敏感
更稳健的估计为:绝对平均偏差,中位数绝对偏差,四分位数极差

多元汇总统计:
(1)协方差矩阵
(2)相关矩阵
(3)值集倾斜度

可视化:指以图形或表格的形式显示信息。目标是可视化信息的人工解释和信息的意境模型的形成。
(1)将信息映射成可视化形式,即将信息中的对象属性和联系映射成可是的对象属性和联系。
对象用三种方法表示:
一:如果只考虑对象的单个分类属性,则通常根据该属性的值将对象聚成类,并

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值