《数据挖掘导论》学习 | 第三章 探索数据

第三章 探索数据

鸢尾花数据集

4. Relevant Information:
   --- This is perhaps the best known database to be found in the pattern
       recognition literature.  Fisher's paper is a classic in the field
       and is referenced frequently to this day.  (See Duda & Hart, for
       example.)  The data set contains 3 classes of 50 instances each,
       where each class refers to a type of iris plant.  One class is
       linearly separable from the other 2; the latter are NOT linearly
       separable from each other.
   --- Predicted attribute: class of iris plant.
   --- This is an exceedingly simple domain.
   --- This data differs from the data presented in Fishers article
	(identified by Steve Chadwick,  spchadwick@espeedaz.net )
	The 35th sample should be: 4.9,3.1,1.5,0.2,"Iris-setosa"
	where the error is in the fourth feature.
	The 38th sample: 4.9,3.6,1.4,0.1,"Iris-setosa"
	where the errors are in the second and third features.  

5. Number of Instances: 150 (50 in each of three classes)

6. Number of Attributes: 4 numeric, predictive attributes and the class

7. Attribute Information:
   1. sepal length in cm
   2. sepal width in cm
   3. petal length in cm
   4. petal width in cm
   5. class: 
      -- Iris Setosa
      -- Iris Versicolour
      -- Iris Virginica

8. Missing Attribute Values: None

Summary Statistics:
	         Min  Max   Mean    SD   Class Correlation
   sepal length: 4.3  7.9   5.84  0.83    0.7826   
    sepal width: 2.0  4.4   3.05  0.43   -0.4194
   petal length: 1.0  6.9   3.76  1.76    0.9490  (high!)
    petal width: 0.1  2.5   1.20  0.76    0.9565  (high!)

9. Class Distribution: 33.3% for each of 3 classes.

汇总统计

汇总统计是量化的(如均值或标准差),用单个数或数的小集合捕获可能很大的值集的各种特征

频率和众数

在这里插入图片描述

  • 分类属性常常具有少量值,因此这些值的众数和频率可能令人感兴趣
  • 鸢尾花数据集三种类型频率相同,没有意义
  • 连续数据众数通常没有用
  • 用唯一的值表示遗漏值通常表现为众数

百分位数

在这里插入图片描述

位置度量:均值和中位数

对于连续数据,两个使用最广泛的汇总统计是均值和中位数
在这里插入图片描述

  • 均值对于离群值很敏感
  • 对于包含离群值的数据,中位数可以更稳健地提供值集中间的估计
阶段均值

在这里插入图片描述

散布度量:极差和方差

连续数据的另一组常用的汇总统计是值集的散布度量
在这里插入图片描述

  • 方差使用均值计算,也同样对离群值敏感

在这里插入图片描述

多元汇总统计

对于具有连续变量的数据,数据的散布更多使用协方差矩阵表示
在这里插入图片描述
但不能仅靠观察协方差的值确定两个变量之间的关联程度,相关性比协方差更可取
在这里插入图片描述
在这里插入图片描述

汇总数据的其他方法

  • 倾斜度(skewness):度量值对称地分布在均值附近的程度
  • 多模态(multimodal):大部分值集中在一个小区间

可视化

一般概念

表示:将数据映射到图形元素

将信息映射成可视形式:将信息中的对象、属性和联系映射成可视的对象、属性和联系

  1. 对象
  • 只考虑对象的单个分类属性:根据该属性的值将对象聚成类,把这些类作为表的项或屏幕的区域显示
  • 对象具有多个属性:将对象显示为表的一行或一列或图的一条线
  • 对象常常解释为二维或三维空间中的点
  1. 属性

在这里插入图片描述

安排:项的安排至关重要
选择:删除或不突出某些对象或属性

技术

少量属性的可视化
  • 茎叶图:观测一维整形或连续数据的分布
  • 直方图:包括茎叶图与条形图,相对频率直方图,Pareto直方图(专门针对无序的分类数据)
  • 二维直方图:将每个属性划分成区间,两个区间集定义值的二维长方体
  • 盒状图(箱线图)
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
  • 饼图:使用圆的相对面积显示不同值的相对频率
  • 百分位数图和经验累积分布函数:对于统计分布的每个值,一个累计分布函数 (CDF) 显示点小于该值的概率;对于每个观测值,一个经验累积分布函数 (ECDF) 显示小于该值的点的百分比

在这里插入图片描述
在这里插入图片描述

  • 散布图(散点图):每个数据对象都作为平面上的一个点绘制

在这里插入图片描述

  • 扩展的二维三维图:提供一些附加的属性,在一个图内表示更多信息

在这里插入图片描述

可视化时间空间数据
  • 等高线图:两个属性指示平面上的位置,第三个属性具有连续值
  • 曲面图:与等高线图基本相同,要求至少在某个范围内,对于前两个属性值的所有集合,第三个属性的值都有定义
  • 矢量场图:同时显示方向和量
  • 低维切片:维数较多的数据可以通过显示一组图来展示
  • 动画:显示数据的相继二维切片

可视化高维数据

(只能显示数据的某些侧面)

  • 矩阵:将数据矩阵的每个元素与图像中的一个像素相关联,尽量使某个类的所有对象聚在一起
  • 平行坐标系:每个属性一个坐标轴,不同的坐标轴平行,对象用线表示(对象每个属性的值映射到与该属性相关联的坐标轴上的点,然后将这些点连接起来形成代表该对象的线)

在这里插入图片描述
(缺点:图中模式的检测可能取决于坐标轴的序)

  • 星形坐标和Chernoff脸:用非文字传达信息的符号——图示符或图标对对象编码

在这里插入图片描述

注意事项

  1. ACCENT原则:
  • 理解(Apprehension)。正确察觉变量之间关系的能力。图形能够最大化对变量之间关系的理解吗?
  • 清晰性(Clarity)。以目视识别图形中所有元素的能力。最重要的元素或关系在视觉上最突出吗?
  • 一致性(Consistency)。根据与以前的图形的相似性解释图形的能力。元素、符号形状和颜色与以前图形使用的一致吗?
  • 有效性(Efficiency)。用尽可能简单的方法描绘复杂关系的能力。图形元素的使用经济吗?图形容易解释吗?
  • 必要性(Necessity)。对图形和图形元素的需要。与其他替代方法(表、文本)相比,图形是提供数据的更有用的形式吗?为表示关系,所有的图形元素都是必要的吗?
  • 真实性(Truthfulness)。通过图形元素相对于隐式或显式尺度的大小,确定图形元素所代表的真实值的能力。图形元素可以准确地定位和定标吗?
  1. Tufte指南
  • 图形的优点是感兴趣的(物质的、统计的和设计的)数据的良好设计的表示。
  • 图形的优点包括与清晰性、精确性和有效性相关的复杂思想。
  • 图形的优点是它在最小的空间内、以最少的笔墨、在最短的时间内为观察者提供最多的信息。
  • 图形的优点几乎总是多元的。
  • 图形的优点需要表述数据的真实性。

OLAP(联机分析处理)和多维数据分析

用多维数组表示鸢尾花数据

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

多维数据:一般情况

  • 开始使用表的形式表示数据(事实表)
  • 用多维数组表示数据:维的识别;分析所关注的属性的识别;维是分类属性;属性值充当对应于该属性的维的数组下标,属性值的个数是维的大小。
  • 属性值的每个组合(每个不同属性一个值)定义了多维数组的一个单元
  • 每个单元的内容代表一个我们在分析时感兴趣的目标量

在这里插入图片描述

分析多维数据

  1. 数据立方体:计算聚集量
  • 从多维角度看待数据的主要动机就是需要以多种方式聚集数据
  • 数据的多维表示,连同所有可能的总和(聚集)称为数据立方体
  • 数据立方体是交叉表的统计学技术的推广
  1. 维归约和转轴

在这里插入图片描述

  1. 切片和切块
  • 切片:通过对一个或多个维指定特定的值,从整个多维数组中选择一组单元
  • 切块:通过指定属性值区间选择单元子集(由整个数组定义子数组)
  1. 上卷和下钻
  • 在一个维内聚集单元,不是在整个维上聚集
    在这里插入图片描述
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值