目录
第三章 探索数据
鸢尾花数据集
4. Relevant Information:
--- This is perhaps the best known database to be found in the pattern
recognition literature. Fisher's paper is a classic in the field
and is referenced frequently to this day. (See Duda & Hart, for
example.) The data set contains 3 classes of 50 instances each,
where each class refers to a type of iris plant. One class is
linearly separable from the other 2; the latter are NOT linearly
separable from each other.
--- Predicted attribute: class of iris plant.
--- This is an exceedingly simple domain.
--- This data differs from the data presented in Fishers article
(identified by Steve Chadwick, spchadwick@espeedaz.net )
The 35th sample should be: 4.9,3.1,1.5,0.2,"Iris-setosa"
where the error is in the fourth feature.
The 38th sample: 4.9,3.6,1.4,0.1,"Iris-setosa"
where the errors are in the second and third features.
5. Number of Instances: 150 (50 in each of three classes)
6. Number of Attributes: 4 numeric, predictive attributes and the class
7. Attribute Information:
1. sepal length in cm
2. sepal width in cm
3. petal length in cm
4. petal width in cm
5. class:
-- Iris Setosa
-- Iris Versicolour
-- Iris Virginica
8. Missing Attribute Values: None
Summary Statistics:
Min Max Mean SD Class Correlation
sepal length: 4.3 7.9 5.84 0.83 0.7826
sepal width: 2.0 4.4 3.05 0.43 -0.4194
petal length: 1.0 6.9 3.76 1.76 0.9490 (high!)
petal width: 0.1 2.5 1.20 0.76 0.9565 (high!)
9. Class Distribution: 33.3% for each of 3 classes.
汇总统计
汇总统计是量化的(如均值或标准差),用单个数或数的小集合捕获可能很大的值集的各种特征
频率和众数
- 分类属性常常具有少量值,因此这些值的众数和频率可能令人感兴趣
- 鸢尾花数据集三种类型频率相同,没有意义
- 连续数据众数通常没有用
- 用唯一的值表示遗漏值通常表现为众数
百分位数
位置度量:均值和中位数
对于连续数据,两个使用最广泛的汇总统计是均值和中位数
- 均值对于离群值很敏感
- 对于包含离群值的数据,中位数可以更稳健地提供值集中间的估计
阶段均值
散布度量:极差和方差
连续数据的另一组常用的汇总统计是值集的散布度量
- 方差使用均值计算,也同样对离群值敏感
多元汇总统计
对于具有连续变量的数据,数据的散布更多使用协方差矩阵表示
但不能仅靠观察协方差的值确定两个变量之间的关联程度,相关性比协方差更可取
汇总数据的其他方法
- 倾斜度(skewness):度量值对称地分布在均值附近的程度
- 多模态(multimodal):大部分值集中在一个小区间
可视化
一般概念
表示:将数据映射到图形元素
将信息映射成可视形式:将信息中的对象、属性和联系映射成可视的对象、属性和联系
- 对象
- 只考虑对象的单个分类属性:根据该属性的值将对象聚成类,把这些类作为表的项或屏幕的区域显示
- 对象具有多个属性:将对象显示为表的一行或一列或图的一条线
- 对象常常解释为二维或三维空间中的点
- 属性
安排:项的安排至关重要
选择:删除或不突出某些对象或属性
技术
少量属性的可视化
- 茎叶图:观测一维整形或连续数据的分布
- 直方图:包括茎叶图与条形图,相对频率直方图,Pareto直方图(专门针对无序的分类数据)
- 二维直方图:将每个属性划分成区间,两个区间集定义值的二维长方体
- 盒状图(箱线图)
- 饼图:使用圆的相对面积显示不同值的相对频率
- 百分位数图和经验累积分布函数:对于统计分布的每个值,一个累计分布函数 (CDF) 显示点小于该值的概率;对于每个观测值,一个经验累积分布函数 (ECDF) 显示小于该值的点的百分比
- 散布图(散点图):每个数据对象都作为平面上的一个点绘制
- 扩展的二维三维图:提供一些附加的属性,在一个图内表示更多信息
可视化时间空间数据
- 等高线图:两个属性指示平面上的位置,第三个属性具有连续值
- 曲面图:与等高线图基本相同,要求至少在某个范围内,对于前两个属性值的所有集合,第三个属性的值都有定义
- 矢量场图:同时显示方向和量
- 低维切片:维数较多的数据可以通过显示一组图来展示
- 动画:显示数据的相继二维切片
可视化高维数据
(只能显示数据的某些侧面)
- 矩阵:将数据矩阵的每个元素与图像中的一个像素相关联,尽量使某个类的所有对象聚在一起
- 平行坐标系:每个属性一个坐标轴,不同的坐标轴平行,对象用线表示(对象每个属性的值映射到与该属性相关联的坐标轴上的点,然后将这些点连接起来形成代表该对象的线)
(缺点:图中模式的检测可能取决于坐标轴的序)
- 星形坐标和Chernoff脸:用非文字传达信息的符号——图示符或图标对对象编码
注意事项
- ACCENT原则:
- 理解(Apprehension)。正确察觉变量之间关系的能力。图形能够最大化对变量之间关系的理解吗?
- 清晰性(Clarity)。以目视识别图形中所有元素的能力。最重要的元素或关系在视觉上最突出吗?
- 一致性(Consistency)。根据与以前的图形的相似性解释图形的能力。元素、符号形状和颜色与以前图形使用的一致吗?
- 有效性(Efficiency)。用尽可能简单的方法描绘复杂关系的能力。图形元素的使用经济吗?图形容易解释吗?
- 必要性(Necessity)。对图形和图形元素的需要。与其他替代方法(表、文本)相比,图形是提供数据的更有用的形式吗?为表示关系,所有的图形元素都是必要的吗?
- 真实性(Truthfulness)。通过图形元素相对于隐式或显式尺度的大小,确定图形元素所代表的真实值的能力。图形元素可以准确地定位和定标吗?
- Tufte指南
- 图形的优点是感兴趣的(物质的、统计的和设计的)数据的良好设计的表示。
- 图形的优点包括与清晰性、精确性和有效性相关的复杂思想。
- 图形的优点是它在最小的空间内、以最少的笔墨、在最短的时间内为观察者提供最多的信息。
- 图形的优点几乎总是多元的。
- 图形的优点需要表述数据的真实性。
OLAP(联机分析处理)和多维数据分析
用多维数组表示鸢尾花数据
多维数据:一般情况
- 开始使用表的形式表示数据(事实表)
- 用多维数组表示数据:维的识别;分析所关注的属性的识别;维是分类属性;属性值充当对应于该属性的维的数组下标,属性值的个数是维的大小。
- 属性值的每个组合(每个不同属性一个值)定义了多维数组的一个单元
- 每个单元的内容代表一个我们在分析时感兴趣的目标量
分析多维数据
- 数据立方体:计算聚集量
- 从多维角度看待数据的主要动机就是需要以多种方式聚集数据
- 数据的多维表示,连同所有可能的总和(聚集)称为数据立方体
- 数据立方体是交叉表的统计学技术的推广
- 维归约和转轴
- 切片和切块
- 切片:通过对一个或多个维指定特定的值,从整个多维数组中选择一组单元
- 切块:通过指定属性值区间选择单元子集(由整个数组定义子数组)
- 上卷和下钻
- 在一个维内聚集单元,不是在整个维上聚集