机器学习之特征工程（5）

最新推荐文章于 2022-05-07 14:44:55 发布

weixin_44953902

最新推荐文章于 2022-05-07 14:44:55 发布

阅读量176

点赞数 1

分类专栏：机器学习文章标签：机器学习特征降维特征选择

本文链接：https://blog.csdn.net/weixin_44953902/article/details/96180984

版权

机器学习专栏收录该内容

18 篇文章 2 订阅

订阅专栏

特征降维

降维

降维是指在某些限定条件下，降低随机变量（特征）个数，得到一组“不相关”主变量的过程。

降低随机变量（特征）的个数：
相关特征（correlated feature）
例如：相对适度与降雨量之间的相关
在进行训练的时候，是使用特征进行学习。如果特征本身存在问题或者特征之间相关性较强，对于算法学习预测会影响较大。
降低特征的个数，特征与特征之间不相关。

降维的两种方式

特征选择
主成分分析（可以理解一种特征提取的方式）

什么是特征选择

定义
数据中包含冗余或相关变量（或称特征、属性、指标等），旨在从原有特征中找出主要特征。
方法

Filter（过滤式）：主要探究特征本身特点、特征与特征之间的相关性
（1）方差选择法：低方差特征过滤
（2）相关系数
Embedded（嵌入式）：算法自动选择特征（特征与目标值之间的关联）
（1）决策树：信息熵、信息增益
（2）正则化：L1、L2
（3）深度学习：卷积

模块
sklearn.feature_selection

低方差特征过滤式

删除低方差的一些特征：

特征方差小：某个特征大多样本的值比较相近
特征方差大：某个特征很多样本的值都有差别

API
sklearn.feature_selection.VarianceThreshold(threshold=0.0)

删除所有低方差特征
Variance.fit_transform(X)
X:numpy array格式的数据[n_samples,n_features]
返回值：训练集差异低于threshold的特征将被删除。默认值是保留所有非0方差特征，即删除所有样本中具有相同值的特征。

数据计算
对某些股票的指标特性之间进行一个筛选。除去‘index’，‘data’.'return’列不考虑（这些类型不匹配，也不是所需要指标）
（1）导入包
import pandas as pd
from sklearn.feature_selection import VarianceThreshold
（2）编写variance_demo()函数，内容如下：

   def variance_demo():
    '''
    低方差过滤
    :return:
    '''
    #1.获取数据
    data = pd.read_csv("E:\Python37\my code\skearncode\\factor_returns.csv")
    data = data.iloc[:,1:-2]
    #2.实例化一个转换器
    transfer = VarianceThreshold()
    #3.调用fit_transform
    data_new = transfer.fit_transform(data)
    print("data_new:\n", data_new, data_new.shape)
    return None

（3）在主函数中调用variance_demo()
（4）结果：
在这里插入图片描述

相关系数

定义
皮尔逊相关系数（Pearson Correlation Coefficient）：反映变量之间相关关系密切程度的统计指标。
公式
特点
相关系数的值介于-1与+1之间，即-1≤r≤+1。其性质如下：

当r>0时，表示两变量正相关，r<0时，两变量为负相关。
当| r |=1时，表示两变量为完全相关，当r=0时，表示两变量键无相关关系。
当0<| r |<1时，表示两变量存在一定程度的相关。且| r |越接近1, 两变量间线性关系越密切；| r |越接近0，表示两变量的线性相关越弱。
一般可按三级划分：| r |<0.4为低度相关；0.4≤| r |≤0.7为显著性相关；0.7≤| r |<1为高度线性相关。

API
from scipy stats import pearsonr

x:(N,)array_like
y:(N,)array_like Returns:(Pearson’s correiation coefficient,pvalue)

案例
利用股票的这些指标进行相关性计算，假设以
factor = [‘pe_ratio’,‘pb_ratio’,]计算这两个特征之间的相关性：
（1）导入包
from scipy.stats import pearsonr
（2）在variance_demo()函数中添加如下代码：

# 4.计算某两个变量的相关系数
r1 = pearsonr(data["pe_ratio"],data["pb_ratio"])
print("相关系数：\n", r1)
r2 = pearsonr(data["revenue"], data["total_expense"])
print("相关系数：\n", r2)

（3）结果：
在这里插入图片描述
图片中的-0.004389322779936274和0.9958450413136111为相关系数。

特征与特征之间相关性很高时：
（1）选取其中一个
（2）加权求和
（3）主成分分析

通过循环对所有特征之间进行两两计算，可以得出相关性高的一些特征。
另外，也可以使用画图来观察结果：
（1）导入包
import matplotlib.pyplot as plt
（2）在variance_demo()函数中添加如下代码：

# 5.画图进行展示
plt.figure(figsize=(20,8),dpi=100)
plt.scatter(data["revenue"], data["total_expense"])
plt.show()

（3）结果：
在这里插入图片描述

weixin_44953902

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习之特征工程（5）

特征降维降维降维是指在某些限定条件下，降低随机变量（特征）个数，得到一组“不相关”主变量的过程。降低随机变量（特征）的个数：ndarry维数：嵌套的层数0维：标量1维：向量2维：矩阵相关特征（correlated feature）例如：相对适度与降雨量之间的相关在进行训练的时候，是使用特征进行学习。如果特征本身存在问题或者特征之间相关性较强，对于算法学习预测会影响较大。降...
复制链接

扫一扫

专栏目录