第二章 认识数据
2.1 数据对象与属性类型
-
数据集由数据对象组成。
-
一个数据对象代表一个实体。 数据库中行对应数据对象,列对应于属性。
-
数据属性
- 标称属性
- 标称属性的值是事物的标号或者名称。
- 每一个值表示一个类别、编码或者状态。
- 值没有次序。
- 只能进行= ≠运算
- 二元属性
- 只有两个类别或者状态(0或1)
- 二元属性是标称属性的特例
- 对称的二元属性 权重相同
- 非对称的二元属性 状态结果不是同样的重要
- 只能进行= ≠运算
- 序数属性
- 可能的值之间具有有意义的序或秩评定(ranking)
- 相继值之间的差是未知的
- 能进行**= ≠ < >**运算
- 数值属性
- 区间标度属性 没有真正的零值
- 比率标度属性 有真正的零值 有固定零点的数值属性
- 标称属性
-
离散属性和连续属性对比
-
离散属性:定性的
- 标称属性
- 二元属性
- 序数属性
-
连续属性:定量的
- 数值属性
- 区间标度属性
- 比率标度属性
- 数值属性
-
-
属性的特性
- 标称属性:= ≠ mode
- 序数属性:= ≠ < > mode, median
- 区间标度属性:= ≠ < > + - mode, median, mean, standard deviation
- 比率标度属性:= ≠ < > + - * / mode, median, mean, standard deviation, ratio
2.2 数据的基本统计描述
2.2.1 中心趋势度量
度量数据分布的中部或中心位置
-
均值
-
均值(algebraic measure)
x ‾ = ∑ i = 1 N x i N = x 1 + x 2 + x 3 + ⋯ + x N N \overline{x} = \frac{\sum_{i=1}^N x_i}{N}=\frac{x_1+x_2+x_3+ \cdots +x_N}{N} x=N∑i=1Nxi=Nx1+x2+x3+⋯+xN -
加权算术均值或加权平均(Weighted arithmetic mean)
x ‾ = ∑ i = 1 N w i x i ∑ i = 1 N w i = w 1 x 1 + w 2 x 2 + w 3 x 3 + ⋯ + x N w 1 + w 2 + w 3 + ⋯ + w N \overline{x} = \frac{\sum_{i=1}^N w_ix_i}{\sum_{i=1}^{N} w_i}=\frac{w_1x_1+w_2x_2+w_3x_3+ \cdots +x_N}{w_1+w_2+w_3+\cdots+w_N} x=∑i=1Nwi∑i=1Nwixi=w1+w2+w3+⋯+wNw1x1+w2x2+w3x3+⋯+xN -
截尾均值(Trimmed mean):丢弃高低极端值后的均值
-
中位数(Median):常用它来描述这组数据的集中趋势
- 按顺序排列的一组数据中居于中间位置的数;如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。
- 插值计算中位数
-
中列数:**是数据集中最大值和最小值的平均值。**可以用来 评估数值型数据的中心性趋势。
-
众数(Mode):集合中出现最频繁的值.
-
mean - mode ≈ 3 x (mean - median)
-
对称数据:均值=中位数=众数
正倾斜数据:众数<中位数<均值
负倾斜数据:均值<中位数<众数
2.2.2 度量数据散布
-
极差(Range):表示的是最大值与最小值的差
-
分位数(quantiles):取自数据分布的每隔一定间隔上的点, 把数据划分成基本上大小相等的连贯集合。
-
四分位数(quartiles): Q1 (25th percentile), Q3 (75th percentile)
-
四分位数极差(interquartile range):IQR = Q3 – Q1
-
五数概括(Five number summary):min, Q1 , median, Q3 , max
- 一个通用的鉴别可疑的离群点的规则是挑选出落在Q3以上或者Q1以下至少1.5*IQR以上的数据值
-
方差(algebraic, scalable computation)
σ = 1 N ∑ i = 1 n ( x i − μ ) 2 \sigma = \frac{1}{N}\sum_{i=1}^{n}(x_i-\mu)^2 σ=N1i=1∑n(xi−μ)2 -
标准差:是方差的平方根。描述散布程度
- 均值->中心
- 方差越小数据越稳定
-
数据的基本统计描述的图形显示
2.3 数据可视化
2.4 度量数据的相似性和相异性
-
相似性(similarity:描述两个数据对象的相似程度。越相似值越高。
-
相异性(distance):描述两个数据对象的差异程度。当两个数据对象更相似的时候,值越低。
-
标称属性的近邻性度量
-
距离
d ( i , j ) = p − m p d(i,j) = \frac{p-m}{p} d(i,j)=pp−m -
相似度
s i m ( i , j ) = 1 − d ( i , j ) = m p sim(i,j)=1-d(i,j)=\frac{m}{p} sim(i,j)=1−d(i,j)=pm
m:匹配的数目(即i和j取值相同状态的属性数)
p:刻画对象的属性总数
-
-
二元属性的邻近性度量
-
序数属性的距离
-
数值属性的距离
-
欧几里得距离
-
二维平面上两点A(x1 ,y1 )与B(x2,y2 )间的欧氏距离:
d 12 = ( x 1 − x 2 ) 2 + ( y 1 − y 2 ) 2 d_{12} = \sqrt{(x_1-x_2)^2+(y_1-y_2)^2} d12=(x1−x2)2+(y1−y2)2 -
二维平面上两点A(x1 ,y1 )与B(x2 ,y2 )间的欧氏距离:
d 12 = ( x 1 − x 2 ) 2 + ( y 1 − y 2 ) 2 + ( z 1 − z 2 ) 2 d_{12} = \sqrt{(x_1-x_2)^2+(y_1-y_2)^2+(z_1-z_2)^2} d12=(x1−x2)2+(y1−y2)2+(z1−z2)2 -
两个n维向量A(x11,x12,…,x1n)与 B(x21,x22,…,x2n)间的欧氏距离:
d 12 = ∑ k = 1 n ( x 1 k − x 2 k ) 2 d_{12} = \sqrt{\sum_{k=1}^n(x_{1k}-x_{2k})^2} d12=k=1∑n(x1k−x2k)2
-
-
曼哈顿距离
-
二维平面两点a(x1 ,y1 )与b(x2 ,y2 )间的曼哈顿距离
d 12 = ∣ x 1 − x 2 ∣ + ∣ y 1 − y 2 ∣ d_{12}=|x_1 - x_2| + |y_1-y_2| d12=∣x1−x2∣+∣y1−y2∣ -
两个n维向量a(x11,x12,…,x1n )与 b(x21,x22,…,x2n )间的曼哈顿距离
d 12 = ∑ k = 1 n ∣ x 1 k − x 2 k ∣ d_{12}=\sum_{k=1}^{n}|x_{1k} - x_{2k}| d12=k=1∑n∣x1k−x2k∣
-
-
闵可夫斯基距离:欧几里得距离和曼哈顿距离的推广
d ( i , j ) = ∣ x i 1 − x j 1 ∣ h + ∣ x i 2 − x j 2 ∣ h + ⋯ + ∣ x i p − x j p ∣ h h d(i,j)=\sqrt[h]{|x_{i1}-x_{j1}|^h+|x_{i2}-x_{j2}|^h+\cdots+|x_{ip}-x_{jp}|^h} d(i,j)=h∣xi1−xj1∣h+∣xi2−xj2∣h+⋯+∣xip−xjp∣h
i = (xi1 , xi2 , …, xip) 和 j = (xj1 , xj2 , …, xjp) 表示两个数据对象,h是个实数,也被称作Lh范数,有些书上习惯称作Lp范数。- 特例
- 特例
-
-
余弦相似度
s i m ( v 1 , v 2 ) = v 1 ⋅ v 2 ∣ v 1 ∣ ∣ v 2 ∣ sim(v_1,v_2)=\frac{v_1\cdot v_2}{|v_1||v_2|} sim(v1,v2)=∣v1∣∣v2∣v1⋅v2
2.5 小结
第二章完