第三章 探索数据
汇总统计:量化的(如均值和标准差),用单个数或数的小集合捕获可能很大的值集的各种特征。
频率:具有属性值vi的对象数/总数
分类属性的众数就是具有最高频率的值。
百分位数:给定一个有序的或连续的属性x和0到100之间的数p,第p个百分位数xp是一个x值,似的x的p%的观测值小于xp。
值集位置的度量:
(1)均值:平均值,对于离群值比较敏感
(2)中位数
截断均值:指0到100之间的百分位数p,丢弃高端和低端的p/2%的数据,然后用常规方法计算均值,就是阶段均值。
中位数是p=100的阶段均值,标准均值是p=0的阶段均值。
散布度量:
(1)极差:最大值减去最小值
(2)方差或标准差
因为均值可能被离群值扭曲,所以方差也可能对离群值敏感
更稳健的估计为:绝对平均偏差,中位数绝对偏差,四分位数极差
多元汇总统计:
(1)协方差矩阵
(2)相关矩阵
(3)值集倾斜度
可视化:指以图形或表格的形式显示信息。目标是可视化信息的人工解释和信息的意境模型的形成。
(1)将信息映射成可视化形式,即将信息中的对象属性和联系映射成可是的对象属性和联系。
对象用三种方法表示:
一:如果只考虑对象的单个分类属性,则通常根据该属性的值将对象聚成类,并