数据挖掘概念与技术第三版
期末复习-第二章认识数据
1. 中心趋势度量:均值、中位数、众数、中列数
- 均值(mean)
数据集“中心”最常用、最有效的数值度量
包括算术平均、加权平均、截尾平均 - 中位数(median)
有序数据值的中间值对于倾斜数据是更好的度量。
当值的个数N为奇数时,中位数是该有序集的中间值; 当值的个数N为偶数时,中位数不唯一,时最中间的两个值和它们的之间的任意值。根据约定,取作最中间两个数的平均值。
当观测数量很大时 - 众数
数据集中出现频率最高的值,有单峰的、双峰的、三峰的。具有两个或更多众数的数据集是多峰的。 - 中列数
数据集的最大和最小值的平均数(max+min)/2。
2.数据对象和数值属性
1.数据集有数据对象组成;一个数据对象代表一个实体;数据对象用属性描述。又称样本、实例、数据点或对象。
2.属性:一个数据字段,表示对象的一个特征。一个属性的类型由该属性可能具有的值的集合决定。
3.属性类型
(1)标称属性:值是一些符号或事物的名称,不具有有意义的序。
(2)二元属性:一种标称属性,只有0和1两种状态
(3)序数属性
(4)数值属性
(5)离散属性和连续属性