《数据挖掘导论》学习 | 第三章探索数据

最新推荐文章于 2023-10-08 15:31:33 发布

蕴玉山辉，怀珠川媚

最新推荐文章于 2023-10-08 15:31:33 发布

阅读量733

点赞数

分类专栏：数据挖掘导论文章标签：数据科学数据挖掘

本文链接：https://blog.csdn.net/weixin_44813180/article/details/105504629

版权

数据挖掘导论专栏收录该内容

5 篇文章 3 订阅

订阅专栏

第三章探索数据

鸢尾花数据集

4. Relevant Information:
   --- This is perhaps the best known database to be found in the pattern
       recognition literature.  Fisher's paper is a classic in the field
       and is referenced frequently to this day.  (See Duda & Hart, for
       example.)  The data set contains 3 classes of 50 instances each,
       where each class refers to a type of iris plant.  One class is
       linearly separable from the other 2; the latter are NOT linearly
       separable from each other.
   --- Predicted attribute: class of iris plant.
   --- This is an exceedingly simple domain.
   --- This data differs from the data presented in Fishers article
	(identified by Steve Chadwick,  spchadwick@espeedaz.net )
	The 35th sample should be: 4.9,3.1,1.5,0.2,"Iris-setosa"
	where the error is in the fourth feature.
	The 38th sample: 4.9,3.6,1.4,0.1,"Iris-setosa"
	where the errors are in the second and third features.  

5. Number of Instances: 150 (50 in each of three classes)

6. Number of Attributes: 4 numeric, predictive attributes and the class

7. Attribute Information:
   1. sepal length in cm
   2. sepal width in cm
   3. petal length in cm
   4. petal width in cm
   5. class: 
      -- Iris Setosa
      -- Iris Versicolour
      -- Iris Virginica

8. Missing Attribute Values: None

Summary Statistics:
	         Min  Max   Mean    SD   Class Correlation
   sepal length: 4.3  7.9   5.84  0.83    0.7826   
    sepal width: 2.0  4.4   3.05  0.43   -0.4194
   petal length: 1.0  6.9   3.76  1.76    0.9490  (high!)
    petal width: 0.1  2.5   1.20  0.76    0.9565  (high!)

9. Class Distribution: 33.3% for each of 3 classes.

汇总统计

汇总统计是量化的（如均值或标准差），用单个数或数的小集合捕获可能很大的值集的各种特征

频率和众数

在这里插入图片描述

分类属性常常具有少量值，因此这些值的众数和频率可能令人感兴趣
鸢尾花数据集三种类型频率相同，没有意义
连续数据众数通常没有用
用唯一的值表示遗漏值通常表现为众数

百分位数

在这里插入图片描述

位置度量：均值和中位数

对于连续数据，两个使用最广泛的汇总统计是均值和中位数
在这里插入图片描述

均值对于离群值很敏感
对于包含离群值的数据，中位数可以更稳健地提供值集中间的估计

阶段均值

在这里插入图片描述

散布度量：极差和方差

连续数据的另一组常用的汇总统计是值集的散布度量
在这里插入图片描述

方差使用均值计算，也同样对离群值敏感

在这里插入图片描述

多元汇总统计

对于具有连续变量的数据，数据的散布更多使用协方差矩阵表示
在这里插入图片描述
但不能仅靠观察协方差的值确定两个变量之间的关联程度，相关性比协方差更可取

汇总数据的其他方法

倾斜度（skewness）：度量值对称地分布在均值附近的程度
多模态（multimodal）：大部分值集中在一个小区间

可视化

一般概念

表示：将数据映射到图形元素

将信息映射成可视形式：将信息中的对象、属性和联系映射成可视的对象、属性和联系

对象

只考虑对象的单个分类属性：根据该属性的值将对象聚成类，把这些类作为表的项或屏幕的区域显示
对象具有多个属性：将对象显示为表的一行或一列或图的一条线
对象常常解释为二维或三维空间中的点

属性

在这里插入图片描述

安排：项的安排至关重要

选择：删除或不突出某些对象或属性

技术

少量属性的可视化

茎叶图：观测一维整形或连续数据的分布
直方图：包括茎叶图与条形图，相对频率直方图，Pareto直方图（专门针对无序的分类数据）
二维直方图：将每个属性划分成区间，两个区间集定义值的二维长方体
盒状图（箱线图）
饼图：使用圆的相对面积显示不同值的相对频率
百分位数图和经验累积分布函数：对于统计分布的每个值，一个累计分布函数 (CDF) 显示点小于该值的概率；对于每个观测值，一个经验累积分布函数 (ECDF) 显示小于该值的点的百分比

在这里插入图片描述

散布图（散点图）：每个数据对象都作为平面上的一个点绘制

在这里插入图片描述

扩展的二维三维图：提供一些附加的属性，在一个图内表示更多信息

在这里插入图片描述

可视化时间空间数据

等高线图：两个属性指示平面上的位置，第三个属性具有连续值
曲面图：与等高线图基本相同，要求至少在某个范围内，对于前两个属性值的所有集合，第三个属性的值都有定义
矢量场图：同时显示方向和量
低维切片：维数较多的数据可以通过显示一组图来展示
动画：显示数据的相继二维切片

可视化高维数据

（只能显示数据的某些侧面）

矩阵：将数据矩阵的每个元素与图像中的一个像素相关联，尽量使某个类的所有对象聚在一起
平行坐标系：每个属性一个坐标轴，不同的坐标轴平行，对象用线表示（对象每个属性的值映射到与该属性相关联的坐标轴上的点，然后将这些点连接起来形成代表该对象的线）

在这里插入图片描述
（缺点：图中模式的检测可能取决于坐标轴的序）

星形坐标和Chernoff脸：用非文字传达信息的符号——图示符或图标对对象编码

在这里插入图片描述

注意事项

ACCENT原则：

理解（Apprehension)。正确察觉变量之间关系的能力。图形能够最大化对变量之间关系的理解吗?
清晰性（Clarity）。以目视识别图形中所有元素的能力。最重要的元素或关系在视觉上最突出吗?
一致性（Consistency)。根据与以前的图形的相似性解释图形的能力。元素、符号形状和颜色与以前图形使用的一致吗?
有效性（Efficiency)。用尽可能简单的方法描绘复杂关系的能力。图形元素的使用经济吗?图形容易解释吗？
必要性（Necessity）。对图形和图形元素的需要。与其他替代方法（表、文本）相比，图形是提供数据的更有用的形式吗?为表示关系，所有的图形元素都是必要的吗？
真实性（Truthfulness)。通过图形元素相对于隐式或显式尺度的大小，确定图形元素所代表的真实值的能力。图形元素可以准确地定位和定标吗?

Tufte指南

图形的优点是感兴趣的（物质的、统计的和设计的）数据的良好设计的表示。
图形的优点包括与清晰性、精确性和有效性相关的复杂思想。
图形的优点是它在最小的空间内、以最少的笔墨、在最短的时间内为观察者提供最多的信息。
图形的优点几乎总是多元的。
图形的优点需要表述数据的真实性。

OLAP（联机分析处理）和多维数据分析

用多维数组表示鸢尾花数据

在这里插入图片描述

多维数据：一般情况

开始使用表的形式表示数据（事实表）
用多维数组表示数据：维的识别；分析所关注的属性的识别；维是分类属性；属性值充当对应于该属性的维的数组下标，属性值的个数是维的大小。
属性值的每个组合（每个不同属性一个值）定义了多维数组的一个单元
每个单元的内容代表一个我们在分析时感兴趣的目标量

在这里插入图片描述

分析多维数据

数据立方体：计算聚集量

从多维角度看待数据的主要动机就是需要以多种方式聚集数据
数据的多维表示，连同所有可能的总和（聚集）称为数据立方体
数据立方体是交叉表的统计学技术的推广

维归约和转轴

在这里插入图片描述

切片和切块

切片：通过对一个或多个维指定特定的值，从整个多维数组中选择一组单元
切块：通过指定属性值区间选择单元子集（由整个数组定义子数组）

上卷和下钻

在一个维内聚集单元，不是在整个维上聚集

蕴玉山辉，怀珠川媚

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
《数据挖掘导论》学习 | 第三章探索数据

目录第三章探索数据鸢尾花数据集汇总统计频率和众数百分位数位置度量：均值和中位数阶段均值散布度量：极差和方差多元汇总统计汇总数据的其他方法可视化第三章探索数据鸢尾花数据集4. Relevant Information: --- This is perhaps the best known database to be found in the pattern recog...
复制链接

扫一扫