特征工程——为什么要特征降维？特征降维有哪些方法？如何使用sklearn实现？

最新推荐文章于 2024-05-16 13:34:37 发布

Ma Sizhou

最新推荐文章于 2024-05-16 13:34:37 发布

阅读量7.2k

点赞数 6

分类专栏：机器学习特征工程

本文链接：https://blog.csdn.net/weixin_45901519/article/details/114685227

版权

目录

特征降维

1、降维

1.1 定义

1.2 降维的两种方式

2、特征选择

2.1 定义

2.2 方法

2.3 低方差特征过滤

2.3.1 API

2.3.2 数据计算

2.4 相关系数

2.4.1 皮尔逊相关系数(Pearson Correlation Coefficient)

2.4.2 斯皮尔曼相关系数(Rank IC)

3、主成分分析

3.1 什么是主成分分析(PCA)

3.2 API

3.3 数据计算

4、小结：

特征降维

1、降维

1.1 定义

降维是指在某些限定条件下，降低随机变量(特征)个数，得到一组“不相关”主变量的过程

降低随机变量的个数
相关特征(correlated feature)
- 比如，相对湿度与降雨量之间的相关，我们就可以只选择一个

正是因为在进行训练的时候，我们都是使用特征进行学习。如果特征本身存在问题或者特征之间相关性较强，对于算法学习预测会影响较大

1.2 降维的两种方式

特征选择
主成分分析（可以理解一种特征提取的方式）

2、特征选择

2.1 定义

数据中包含冗余或无关变量（或称特征、属性、指标等），旨在从原有特征中找出主要特征。
在这里插入图片描述

2.2 方法

Filter(过滤式)：主要探究特征本身特点、特征与特征和目标值之间关联
- 方差选择法：低方差特征过滤
- 相关系数
Embedded (嵌入式)：算法自动选择特征（特征与目标值之间的关联）
- 决策树:信息熵、信息增益
- 正则化：L1、L2
- 深度学习：卷积等

2.3 低方差特征过滤

删除低方差的一些特征，前面讲过方差的意义。再结合方差的大小来考虑这个方式的角度。

特征方差小：某个特征大多样本的值比较相近
特征方差大：某个特征很多样本的值都有差别

2.3.1 API

sklearn.feature_selection.VarianceThreshold(threshold = 0.0)
- 删除所有低方差特征
- Variance.fit_transform(X)
  - X:numpy array格式的数据[n_samples,n_features]
  - 返回值：训练集差异低于threshold的特征将被删除。默认值是保留所有非零方差特征，即删除所有样本中具有相同值的特征。

2.3.2 数据计算

我们对某些股票的指标特征之间进行一个筛选，除去’index,‘date’,'return’列不考虑（这些类型不匹配，也不是所需要指标）

一共这些特征

pe_ratio,pb_ratio,market_cap,return_on_asset_net_profit,du_return_on_equity,ev,earnings_per_share,revenue,total_expense

index,pe_ratio,pb_ratio,market_cap,return_on_asset_net_profit,du_return_on_equity,ev,earnings_per_share,revenue,total_expense,date,return
0,000001.XSHE,5.9572,1.1818,85252550922.0,0.8008,14.9403,1211444855670.0,2.01,20701401000.0,10882540000.0,2012-01-31,0.027657228229937388
1,000002.XSHE,7.0289,1.588,84113358168.0,1.6463,7.8656,300252061695.0,0.326,29308369223.2,23783476901.2,2012-01-31,0.08235182370820669
2,000008.XSHE,-262.7461,7.0003,517045520.0,-0.5678,-0.5943,770517752.56,-0.006,11679829.03,12030080.04,2012-01-31,0.09978900335112327
3,000060.XSHE,16.476,3.7146,19680455995.0,5.6036,14.617,28009159184.6,0.35,9189386877.65,7935542726.05,2012-01-31,0.12159482758620697
4,000069.XSHE,12.5878,2.5616,41727214853.0,2.8729,10.9097,81247380359.0,

最低0.47元/天解锁文章

Ma Sizhou

关注

6
点赞
踩
40

收藏

觉得还不错? 一键收藏
0
评论
特征工程——为什么要特征降维？特征降维有哪些方法？如何使用sklearn实现？

特征降维1、降维1.1 定义降维是指在某些限定条件下，降低随机变量(特征)个数，得到一组“不相关”主变量的过程降低随机变量的个数相关特征(correlated feature)比如，相对湿度与降雨量之间的相关，我们就可以只选择一个正是因为在进行训练的时候，我们都是使用特征进行学习。如果特征本身存在问题或者特征之间相关性较强，对于算法学习预测会影响较大1.2 降维的两种方式特征选择主成分分析（可以理解一种特征提取的方式）2、特征选择2.1 定义数据中包含冗余或无关
复制链接

扫一扫