数据处理----特征(一)

最新推荐文章于 2022-09-03 15:14:49 发布

35岁北京一套房

最新推荐文章于 2022-09-03 15:14:49 发布

阅读量775

点赞数 1

文章标签：机器学习人工智能数据分析

本文链接：https://blog.csdn.net/weixin_45671820/article/details/117063553

版权

为什么处理特征？什么叫特征提取？提取什么？什么叫特征选择？

特征工程包括特征提取和特征选择，目标是降维，以及和特征转换。

在这里插入图片描述

将高维映射到低维空间中去，在低维空间中去寻找联系，就知道了高维空间的内在联系了。

在这里插入图片描述
1维、2维和3维的样本点。

通过属性间的关系，如组合不同的属性得到新的属性，改变了原来的特征空间。（计算机视觉，edge， corner, orientation）, 尺度不变特征变换（Scale-invariant feature transform，SIFT），方法包括：PCA, LDA，SVD。

人工标注很难实现，特征太多，维数复杂；
在高维下，欧几里得距离不能测量距离，数据特征会很稀疏。

维数约减（主成分分析、流形学习）：

从原始特征数据集中选择出子集，是一种包含的关系，没有更改原始的特征空间，对训练数据具有分类能力的特征。

  提高预测的准确性
  构造更快，消耗更低的预测模型
  能够对模型有更好的理解和解释

在这里插入图片描述

主成分分析：很多样本点，有两个特征，高度和宽度， $e_1$ , $e_2$ 是新的基，维数约减。
在这里插入图片描述

相似度测量：推荐系统、集群聚类，K-mean,异常探测
在这里插入图片描述

在这里插入图片描述

线性分类模型的核心是算分数，有边界明确、复杂度可控等cons，但是对于更为复杂的情形，直线和超平面的分割就显得比较局限，此时引出非线性分类的思路。

在这里插入图片描述

特征提取：指标包括最大值、最小值、均值、方差、均方值、均方根值、偏度、峰峰值（最大-最小）
在这里插入图片描述

四类变两类
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

了解一下处理特征，一直觉得很神秘。

关注