数据挖掘复习笔记第二章——认识数据

最新推荐文章于 2022-08-06 13:44:23 发布

Hatter_l

最新推荐文章于 2022-08-06 13:44:23 发布

阅读量848

点赞数 2

分类专栏：数据挖掘文章标签：数据挖掘人工智能

本文链接：https://blog.csdn.net/weixin_51206814/article/details/121099390

版权

数据挖掘专栏收录该内容

8 篇文章 5 订阅

订阅专栏

第二章认识数据

2.1 数据对象与属性类型

数据集由数据对象组成。
一个数据对象代表一个实体。数据库中行对应数据对象，列对应于属性。
数据属性
- 标称属性
  - 标称属性的值是事物的标号或者名称。
  - 每一个值表示一个类别、编码或者状态。
  - 值没有次序。
  - 只能进行＝ ≠运算
- 二元属性
  - 只有两个类别或者状态（0或1）
  - 二元属性是标称属性的特例
  - 对称的二元属性 权重相同
  - 非对称的二元属性 状态结果不是同样的重要
  - 只能进行＝ ≠运算
- 序数属性
  - 可能的值之间具有有意义的序或秩评定(ranking)
  - 相继值之间的差是未知的
  - 能进行**＝ ≠ < >**运算
- 数值属性
  - 区间标度属性没有真正的零值
  - 比率标度属性有真正的零值有固定零点的数值属性
离散属性和连续属性对比
- 离散属性：定性的
  - 标称属性
  - 二元属性
  - 序数属性
- 连续属性：定量的
  - 数值属性
    - 区间标度属性
    - 比率标度属性
属性的特性
- 标称属性：＝ ≠ mode
- 序数属性：＝ ≠ < > mode, median
- 区间标度属性：＝ ≠ < > + - mode, median, mean, standard deviation
- 比率标度属性：＝ ≠ < > + - * / mode, median, mean, standard deviation, ratio

2.2 数据的基本统计描述

2.2.1 中心趋势度量

度量数据分布的中部或中心位置

均值
均值(algebraic measure)
$\overline{x} = \frac{\sum_{i=1}^N x_i}{N}=\frac{x_1+x_2+x_3+ \cdots +x_N}{N}$
加权算术均值或加权平均(Weighted arithmetic mean)
$\overline{x} = \frac{\sum_{i=1}^N w_ix_i}{\sum_{i=1}^{N} w_i}=\frac{w_1x_1+w_2x_2+w_3x_3+ \cdots +x_N}{w_1+w_2+w_3+\cdots+w_N}$
截尾均值(Trimmed mean)：丢弃高低极端值后的均值
中位数(Median)：常用它来描述这组数据的集中趋势
- 按顺序排列的一组数据中居于中间位置的数；如果观察值有偶数个，通常取最中间的两个数值的平均数作为中位数。
- 插值计算中位数
中列数：**是数据集中最大值和最小值的平均值。**可以用来评估数值型数据的中心性趋势。
众数(Mode)：集合中出现最频繁的值.
mean - mode ≈ 3 x (mean - median)
对称数据：均值=中位数=众数
正倾斜数据：众数<中位数<均值
负倾斜数据：均值<中位数<众数

2.2.2 度量数据散布

极差(Range)：表示的是最大值与最小值的差
分位数(quantiles)：取自数据分布的每隔一定间隔上的点，把数据划分成基本上大小相等的连贯集合。
四分位数(quartiles)： Q₁ (25th percentile), Q₃ (75th percentile)
四分位数极差(interquartile range)：IQR = Q₃ – Q₁
五数概括(Five number summary)：min, Q₁ , median, Q₃ , max
- 一个通用的鉴别可疑的离群点的规则是挑选出落在Q3以上或者Q1以下至少1.5*IQR以上的数据值
方差(algebraic, scalable computation)
$\sigma = \frac{1}{N}\sum_{i=1}^{n}(x_i-\mu)^2$
标准差：是方差的平方根。描述散布程度
- 均值->中心
- 方差越小数据越稳定
数据的基本统计描述的图形显示

在这里插入图片描述

2.3 数据可视化

在这里插入图片描述

2.4 度量数据的相似性和相异性

相似性(similarity：描述两个数据对象的相似程度。越相似值越高。
相异性(distance)：描述两个数据对象的差异程度。当两个数据对象更相似的时候，值越低。
标称属性的近邻性度量
- 距离
  $\frac{p-m}{p}$
- 相似度
  $sim(i,j)=1-d(i,j)=\frac{m}{p}$
  m：匹配的数目（即i和j取值相同状态的属性数）
  p：刻画对象的属性总数
二元属性的邻近性度量
序数属性的距离
数值属性的距离
- 欧几里得距离
  - 二维平面上两点A(x₁ ,y₁ )与B(x₂,y₂ )间的欧氏距离：
    $d_{12} = \sqrt{(x_1-x_2)^2+(y_1-y_2)^2}$
  - 二维平面上两点A(x₁ ,y₁ )与B(x₂ ,y₂ )间的欧氏距离：
    $d_{12} = \sqrt{(x_1-x_2)^2+(y_1-y_2)^2+(z_1-z_2)^2}$
  - 两个n维向量A(x₁₁,x₁₂,…,x_1n)与 B(x₂₁,x₂₂,…,x_2n)间的欧氏距离：
    $d_{12} = \sqrt{\sum_{k=1}^n(x_{1k}-x_{2k})^2}$
- 曼哈顿距离
  - 二维平面两点a(x₁ ,y₁ )与b(x₂ ,y₂ )间的曼哈顿距离
    $d_{12}=|x_1 - x_2| + |y_1-y_2|$
  - 两个n维向量a(x₁₁,x₁₂,…,x_1n )与 b(x₂₁,x₂₂,…,x_2n )间的曼哈顿距离
    $d_{12}=\sum_{k=1}^{n}|x_{1k} - x_{2k}|$
- 闵可夫斯基距离：欧几里得距离和曼哈顿距离的推广
  $d(i,j)=\sqrt[h]{|x_{i1}-x_{j1}|^h+|x_{i2}-x_{j2}|^h+\cdots+|x_{ip}-x_{jp}|^h}$
  i = (x_i1 , x_i2 , …, x_ip) 和 j = (x_j1 , x_j2 , …, x_jp) 表示两个数据对象，h是个实数，也被称作L_h范数，有些书上习惯称作L_p范数。
  - 特例
余弦相似度
$sim(v_1,v_2)=\frac{v_1\cdot v_2}{|v_1||v_2|}$

2.5 小结

第二章完

Hatter_l

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘复习笔记第二章——认识数据

第二章认识数据2.1 数据对象与属性类型数据集由数据对象组成。一个数据对象代表一个实体。数据库中行对应数据对象，列对应于属性。数据属性标称属性标称属性的值是事物的标号或者名称。每一个值表示一个类别、编码或者状态。值没有次序。只能进行＝ ≠运算二元属性只有两个类别或者状态（0或1）二元属性是标称属性的特例对称的二元属性权重相同非对称的二元属性状态结果不是同样的重要只能进行＝ ≠运算序数属性可能的值之间具有有意义的序或秩评定(ranking)
复制链接

扫一扫