数据挖掘复习笔记第二章——认识数据

第二章 认识数据

2.1 数据对象与属性类型

  • 数据集数据对象组成。

  • 一个数据对象代表一个实体。 数据库中行对应数据对象,列对应于属性

  • 数据属性

    • 标称属性
      • 标称属性的值是事物的标号或者名称。
      • 每一个值表示一个类别、编码或者状态。
      • 值没有次序。
      • 只能进行= ≠运算
    • 二元属性
      • 只有两个类别或者状态(0或1)
      • 二元属性是标称属性的特例
      • 对称的二元属性 权重相同
      • 非对称的二元属性 状态结果不是同样的重要
      • 只能进行= ≠运算
    • 序数属性
      • 可能的值之间具有有意义的序或秩评定(ranking)
      • 相继值之间的差是未知的
      • 能进行**= ≠ < >**运算
    • 数值属性
      • 区间标度属性 没有真正的零值
      • 比率标度属性 有真正的零值 有固定零点的数值属性
  • 离散属性和连续属性对比

    • 离散属性:定性的

      • 标称属性
      • 二元属性
      • 序数属性
    • 连续属性:定量的

      • 数值属性
        • 区间标度属性
        • 比率标度属性
  • 属性的特性

    • 标称属性:= ≠ mode
    • 序数属性:= ≠ < > mode, median
    • 区间标度属性:= ≠ < > + - mode, median, mean, standard deviation
    • 比率标度属性:= ≠ < > + - * / mode, median, mean, standard deviation, ratio

2.2 数据的基本统计描述

2.2.1 中心趋势度量

​ 度量数据分布的中部或中心位置

  • 均值

  • 均值(algebraic measure)
    x ‾ = ∑ i = 1 N x i N = x 1 + x 2 + x 3 + ⋯ + x N N \overline{x} = \frac{\sum_{i=1}^N x_i}{N}=\frac{x_1+x_2+x_3+ \cdots +x_N}{N} x=Ni=1Nxi=Nx1+x2+x3++xN

  • 加权算术均值或加权平均(Weighted arithmetic mean)
    x ‾ = ∑ i = 1 N w i x i ∑ i = 1 N w i = w 1 x 1 + w 2 x 2 + w 3 x 3 + ⋯ + x N w 1 + w 2 + w 3 + ⋯ + w N \overline{x} = \frac{\sum_{i=1}^N w_ix_i}{\sum_{i=1}^{N} w_i}=\frac{w_1x_1+w_2x_2+w_3x_3+ \cdots +x_N}{w_1+w_2+w_3+\cdots+w_N} x=i=1Nwii=1Nwixi=w1+w2+w3++wNw1x1+w2x2+w3x3++xN

  • 截尾均值(Trimmed mean):丢弃高低极端值后的均值

  • 中位数(Median):常用它来描述这组数据的集中趋势

    • 按顺序排列的一组数据中居于中间位置的数;如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。
    • 插值计算中位数在这里插入图片描述
  • 中列数:**是数据集中最大值和最小值的平均值。**可以用来 评估数值型数据的中心性趋势。

  • 众数(Mode):集合中出现最频繁的值.

  • mean - mode ≈ 3 x (mean - median)

  • 对称数据:均值=中位数=众数
    正倾斜数据:众数<中位数<均值
    负倾斜数据:均值<中位数<众数

2.2.2 度量数据散布
  • 极差(Range):表示的是最大值与最小值的差

  • 分位数(quantiles):取自数据分布的每隔一定间隔上的点, 把数据划分成基本上大小相等的连贯集合。

  • 四分位数(quartiles): Q1 (25th percentile), Q3 (75th percentile)

  • 四分位数极差(interquartile range):IQR = Q3 – Q1

  • 五数概括(Five number summary):min, Q1 , median, Q3 , max

    • 一个通用的鉴别可疑的离群点的规则是挑选出落在Q3以上或者Q1以下至少1.5*IQR以上的数据值
  • 方差(algebraic, scalable computation)
    σ = 1 N ∑ i = 1 n ( x i − μ ) 2 \sigma = \frac{1}{N}\sum_{i=1}^{n}(x_i-\mu)^2 σ=N1i=1n(xiμ)2

  • 标准差:是方差的平方根。描述散布程度

    • 均值->中心
    • 方差越小数据越稳定
  • 数据的基本统计描述的图形显示

在这里插入图片描述

2.3 数据可视化

在这里插入图片描述

2.4 度量数据的相似性和相异性

  • 相似性(similarity:描述两个数据对象的相似程度。越相似值越高。

  • 相异性(distance):描述两个数据对象的差异程度。当两个数据对象更相似的时候,值越低。

  • 标称属性的近邻性度量

    • 距离
      d ( i , j ) = p − m p d(i,j) = \frac{p-m}{p} d(i,j)=ppm

    • 相似度
      s i m ( i , j ) = 1 − d ( i , j ) = m p sim(i,j)=1-d(i,j)=\frac{m}{p} sim(i,j)=1d(i,j)=pm
      m:匹配的数目(即i和j取值相同状态的属性数)
      p:刻画对象的属性总数

  • 二元属性的邻近性度量
    在这里插入图片描述

  • 序数属性的距离
    在这里插入图片描述

  • 数值属性的距离

    • 欧几里得距离

      • 二维平面上两点A(x1 ,y1 )与B(x2,y2 )间的欧氏距离:
        d 12 = ( x 1 − x 2 ) 2 + ( y 1 − y 2 ) 2 d_{12} = \sqrt{(x_1-x_2)^2+(y_1-y_2)^2} d12=(x1x2)2+(y1y2)2

      • 二维平面上两点A(x1 ,y1 )与B(x2 ,y2 )间的欧氏距离:
        d 12 = ( x 1 − x 2 ) 2 + ( y 1 − y 2 ) 2 + ( z 1 − z 2 ) 2 d_{12} = \sqrt{(x_1-x_2)^2+(y_1-y_2)^2+(z_1-z_2)^2} d12=(x1x2)2+(y1y2)2+(z1z2)2

      • 两个n维向量A(x11,x12,…,x1n)与 B(x21,x22,…,x2n)间的欧氏距离:
        d 12 = ∑ k = 1 n ( x 1 k − x 2 k ) 2 d_{12} = \sqrt{\sum_{k=1}^n(x_{1k}-x_{2k})^2} d12=k=1n(x1kx2k)2

    • 曼哈顿距离

      • 二维平面两点a(x1 ,y1 )与b(x2 ,y2 )间的曼哈顿距离
        d 12 = ∣ x 1 − x 2 ∣ + ∣ y 1 − y 2 ∣ d_{12}=|x_1 - x_2| + |y_1-y_2| d12=x1x2+y1y2

      • 两个n维向量a(x11,x12,…,x1n )与 b(x21,x22,…,x2n )间的曼哈顿距离
        d 12 = ∑ k = 1 n ∣ x 1 k − x 2 k ∣ d_{12}=\sum_{k=1}^{n}|x_{1k} - x_{2k}| d12=k=1nx1kx2k

    • 闵可夫斯基距离:欧几里得距离和曼哈顿距离的推广
      d ( i , j ) = ∣ x i 1 − x j 1 ∣ h + ∣ x i 2 − x j 2 ∣ h + ⋯ + ∣ x i p − x j p ∣ h h d(i,j)=\sqrt[h]{|x_{i1}-x_{j1}|^h+|x_{i2}-x_{j2}|^h+\cdots+|x_{ip}-x_{jp}|^h} d(i,j)=hxi1xj1h+xi2xj2h++xipxjph
      i = (xi1 , xi2 , …, xip) 和 j = (xj1 , xj2 , …, xjp) 表示两个数据对象,h是个实数,也被称作Lh范数,有些书上习惯称作Lp范数。

      • 特例在这里插入图片描述
  • 余弦相似度
    s i m ( v 1 , v 2 ) = v 1 ⋅ v 2 ∣ v 1 ∣ ∣ v 2 ∣ sim(v_1,v_2)=\frac{v_1\cdot v_2}{|v_1||v_2|} sim(v1,v2)=v1v2v1v2

2.5 小结

第二章完

  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值