数据基本特征

目录

一、数据知识

二、数据预处理

三、属性的相似度和相异度


一、数据知识

如果若干属性是强相关的,则说明这些属性可能提供了高度冗余的信息,我们可以决定只保留一个。

二、数据预处理

1、维规约:

通过创建新属性,将一些旧属性合并在一起来降低数据的维度。通过选择旧属性的子集得到的新属性,这种维规约称为特征子集选择。

2、维灾难:

数据维度(属性)过高。数据稀疏,对于分类,没有足够多的数据用于建模;对于聚类,点之间的密度和距离定义失去了意义,分类准确率降低。

3、数据离散化:

将连续型变量离散化为离散型变量。

(1)非监督离散化:

2_01.png
 
注:这里注意K均值离散化是什么样的技术,去寻找资料。

(2)监督离散化:

计算熵,希望获得最小的熵:

                                              e_{i}=-\sum_{k}^{j=1}p_{ij}*log_{2}(p_{ij})

                                                          e=\sum_{i=1}^{n}w_{i}e_{i}

其中e为该区间的熵。 
若纯:对于pij = 0或者1,ei = 0 
若不纯:则熵最大。
4、变量变换:
标准化:创建一个变量,使得它有均值为0,标准差为1 
                                                        x'=\frac{x-\bar{x}}{s_{x}}

均值和标准差受离群点的影响很大,通常需要使用其他变化,用中位数(median)代替均值,使用绝对标准差(absolute standard deviation)取代标准差。绝对标准差: 
                                                        \sigma_{A}=\sum_{i=1}^{m}\left|x_{i}-\mu\right|

三、属性的相似度和相异度

1、相异度,距离

闵可夫斯基距离(Minkowski distance): 
                                                           d(x,y)=\left(\sum_{k=1}^{n}\left|x_{k}-y_{k}\right|^{r}\right)^{\frac{1}{r}}

注:r=1时,曼哈顿距离。r=2时,欧几里得距离。r=无穷时,上确界距离。 
距离的性质: 
(1)非负性;(2)对称性;(3)三角不等式。

2、相似度

(1)简单匹配系数(Simple Matching Coefficient,SMC)
                                                          SMC=\frac{f_{11}+f_{00}}{f_{01}+f_{10}+f_{11}+f_{00}}

其中f11表示:x取1并且y取1的属性个数。其他类似。SMC可以是一个仅包含是非题的检测中用来发现回答问题相似的学生。
(2)Jaccard系数
                                                        J=\frac{f_{11}}{f_{01}+f_{10}+f_{11}}

以上两个系数,均用于二元变量,0-1的计算。

(3)余弦相似度

                                              cos(x,y)=\frac{x\cdot y}{\left \| x \right \|\left \| y \right \|}=\frac{x}{\left\|x\right\|}\cdot \frac{y}{\left\|y\right\|}=x'\cdot y'

余弦相似度从等式右边,可以看出不需要考虑量值。其中,有向量点积计算公式: 
                                             x\cdot y=\sum_{n}^{k=1}x_{k}y_{k},\left \| x \right \|=\sqrt{\sum_{n}^{k=1}x_{k}^{2}}=\sqrt{x\cdot x}
(4)广义Jaccard系数(Tanimoto系数,EJ)
                                            EJ(x,y)=\frac{x\cdot y}{\left \| x \right \|^{2}+\left \| y \right \|^{2}-x\cdot y}
(5)相关性
Pearson相关系数,[-1,1]之间: 
                           corr(x,y)=\frac{S_{xy}}{S_{x}S_{y}}=\frac{\frac{1}{n-1}\sum_{k=1}^{n}(x_{k}-\bar{x})(y_{k}-\bar{y})}{\sqrt{\frac{1}{n-1}\sum_{k=1}^{n}(x_{k}-\bar{x})^{2}}\cdot \sqrt{\frac{1}{n-1}\sum_{k=1}^{n}(y_{k}-\bar{y})^{2}}}

Bregman散度: 
失真函数,损失函数。y为原来的点,x为某个失真值。给定一个严格凸函数,Bregman散度D(x,y): 

                                    D(x,y)=\phi (x)+\phi (y)-\left \langle \triangledown \phi(y),(x-y) \right \rangle

后面的为梯度和内积。

 2_02.png
y=1时,在x=2和x=3上的Bregman散度。

(6)马氏距离(Mahalanobis距离)
                                           mahalanobis(x,y)=(x-y)\Sigma ^{-1}(x-y)^{T}
x,y为两个点,中间的为数据协方差的逆。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值