第三章 数据分析基础
一、 数值型属性的概率基础
1.一元变量分析
一元变量分析聚焦于一个属性。因此数据矩阵D表示为一个n×1的矩阵:
- 经验概率质量函数
- 经验累积分布函数
- 逆经验累积分布函数
- 均值
- 均值:X所有值的平均值
- 样本均值:X的样本的平均值,是均值的估计值
- 中位数
- 众数
- 数据离散度量
- 健壮性:如果一个统计量不受数据中极端值(如异常值)的影响,我们就说这个统计量是健壮的
- 极差
- 四分位差
- 方差和标准差
随机变量X的方差是衡量X的不同取值偏离X的均值或期望值的程度。方差事实上是X所有取值与均值之差的平方的期望值
2. 二元变量分析
- 相关性度量
协方差:两个属性的协方差提供了衡量它们之间线性相关度的方法
两个属性独立—>协方差为0。反之,不一定成立。
- 样本协方差和相关性的几何解释
即协方差的值为两个样本的余弦距离
- 协方差矩阵
- 广义方差
3. 多元变量分析
在多元变量分析中,考虑所有的d个数值属性X1,X2,…,Xd,整个数据集是一个n×d的矩阵
- 广义方差
4.数据规范化
二、样本之间的度量
相似度和相异度
- 相似度
- 对于更相似的对象对,相似度更高。
- 非负
- 范围从0到1
- 相异度
- 对于更相似的对象对,相异度较低。
- 非负
- 范围从0到1,或0到∞
1.相异度
数据对象之间的相异度通常通过距离进行度量
-
欧式距离
-
闵可夫斯基距离
-
马氏距离
-
一个函数d是距离度量要满足的条件
2.相似度
- Jaccard相似度
- 共同词数
- 字符串的编辑距离
- KL散度
- 余弦相似度
余弦通常用于比较文档