目录
一、数据知识
如果若干属性是强相关的,则说明这些属性可能提供了高度冗余的信息,我们可以决定只保留一个。
二、数据预处理
1、维规约:
通过创建新属性,将一些旧属性合并在一起来降低数据的维度。通过选择旧属性的子集得到的新属性,这种维规约称为特征子集选择。
2、维灾难:
数据维度(属性)过高。数据稀疏,对于分类,没有足够多的数据用于建模;对于聚类,点之间的密度和距离定义失去了意义,分类准确率降低。
3、数据离散化:
将连续型变量离散化为离散型变量。
(1)非监督离散化:
注:这里注意K均值离散化是什么样的技术,去寻找资料。
(2)监督离散化:
计算熵,希望获得最小的熵:
其中e为该区间的熵。
若纯:对于pij = 0或者1,ei = 0
若不纯:则熵最大。
4、变量变换:
标准化:创建一个变量,使得它有均值为0,标准差为1
均值和标准差受离群点的影响很大,通常需要使用其他变化,用中位数(median)代替均值,使用绝对标准差(absolute standard deviation)取代标准差。绝对标准差:
三、属性的相似度和相异度
1、相异度,距离
闵可夫斯基距离(Minkowski distance):
注:r=1时,曼哈顿距离。r=2时,欧几里得距离。r=无穷时,上确界距离。
距离的性质:
(1)非负性;(2)对称性;(3)三角不等式。
2、相似度
(1)简单匹配系数(Simple Matching Coefficient,SMC)
其中f11表示:x取1并且y取1的属性个数。其他类似。SMC可以是一个仅包含是非题的检测中用来发现回答问题相似的学生。
(2)Jaccard系数
以上两个系数,均用于二元变量,0-1的计算。
(3)余弦相似度
余弦相似度从等式右边,可以看出不需要考虑量值。其中,有向量点积计算公式:
(4)广义Jaccard系数(Tanimoto系数,EJ)
(5)相关性
Pearson相关系数,[-1,1]之间:
Bregman散度:
失真函数,损失函数。y为原来的点,x为某个失真值。给定一个严格凸函数,Bregman散度D(x,y):
后面的为梯度和内积。
y=1时,在x=2和x=3上的Bregman散度。
(6)马氏距离(Mahalanobis距离)
x,y为两个点,中间的为数据协方差的逆。