数据基本特征

最新推荐文章于 2023-08-14 09:37:51 发布

Space_of_Felix

最新推荐文章于 2023-08-14 09:37:51 发布

阅读量4.5k

点赞数

分类专栏：算法

本文链接：https://blog.csdn.net/wretch_of_Felix/article/details/84193339

版权

算法专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一、数据知识

二、数据预处理

三、属性的相似度和相异度

一、数据知识

如果若干属性是强相关的，则说明这些属性可能提供了高度冗余的信息，我们可以决定只保留一个。

二、数据预处理

1、维规约：

通过创建新属性，将一些旧属性合并在一起来降低数据的维度。通过选择旧属性的子集得到的新属性，这种维规约称为特征子集选择。

2、维灾难：

数据维度（属性）过高。数据稀疏，对于分类，没有足够多的数据用于建模；对于聚类，点之间的密度和距离定义失去了意义，分类准确率降低。

3、数据离散化：

将连续型变量离散化为离散型变量。

（1）非监督离散化：

注：这里注意K均值离散化是什么样的技术，去寻找资料。

（2）监督离散化：

计算熵，希望获得最小的熵：

$e_{i}=-\sum_{k}^{j=1}p_{ij}*log_{2}(p_{ij})$

$e=\sum_{i=1}^{n}w_{i}e_{i}$

其中e为该区间的熵。
若纯：对于pij = 0或者1，ei = 0
若不纯：则熵最大。
4、变量变换：
标准化：创建一个变量，使得它有均值为0，标准差为1
$x'=\frac{x-\bar{x}}{s_{x}}$

均值和标准差受离群点的影响很大，通常需要使用其他变化，用中位数（median）代替均值，使用绝对标准差（absolute standard deviation）取代标准差。绝对标准差：
$\sigma_{A}=\sum_{i=1}^{m}\left|x_{i}-\mu\right|$

三、属性的相似度和相异度

1、相异度，距离

闵可夫斯基距离（Minkowski distance）：
$d(x,y)=\left(\sum_{k=1}^{n}\left|x_{k}-y_{k}\right|^{r}\right)^{\frac{1}{r}}$

注：r=1时，曼哈顿距离。r=2时，欧几里得距离。r=无穷时，上确界距离。
距离的性质：
（1）非负性；（2）对称性；（3）三角不等式。

2、相似度

（1）简单匹配系数（Simple Matching Coefficient，SMC）
$SMC=\frac{f_{11}+f_{00}}{f_{01}+f_{10}+f_{11}+f_{00}}$

其中f11表示：x取1并且y取1的属性个数。其他类似。SMC可以是一个仅包含是非题的检测中用来发现回答问题相似的学生。
（2）Jaccard系数
$J=\frac{f_{11}}{f_{01}+f_{10}+f_{11}}$

以上两个系数，均用于二元变量，0-1的计算。

（3）余弦相似度

$cos(x,y)=\frac{x\cdot y}{\left \| x \right \|\left \| y \right \|}=\frac{x}{\left\|x\right\|}\cdot \frac{y}{\left\|y\right\|}=x'\cdot y'$

余弦相似度从等式右边，可以看出不需要考虑量值。其中，有向量点积计算公式：
$x\cdot y=\sum_{n}^{k=1}x_{k}y_{k},\left \| x \right \|=\sqrt{\sum_{n}^{k=1}x_{k}^{2}}=\sqrt{x\cdot x}$
（4）广义Jaccard系数（Tanimoto系数，EJ）
$EJ(x,y)=\frac{x\cdot y}{\left \| x \right \|^{2}+\left \| y \right \|^{2}-x\cdot y}$
（5）相关性
Pearson相关系数，[-1,1]之间：
$corr(x,y)=\frac{S_{xy}}{S_{x}S_{y}}=\frac{\frac{1}{n-1}\sum_{k=1}^{n}(x_{k}-\bar{x})(y_{k}-\bar{y})}{\sqrt{\frac{1}{n-1}\sum_{k=1}^{n}(x_{k}-\bar{x})^{2}}\cdot \sqrt{\frac{1}{n-1}\sum_{k=1}^{n}(y_{k}-\bar{y})^{2}}}$