机器学习之特征工程(5)

特征降维

降维

      降维是指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程。

  • 降低随机变量(特征)的个数:
  • 相关特征(correlated feature)
    例如:相对适度与降雨量之间的相关
          在进行训练的时候,是使用特征进行学习。如果特征本身存在问题或者特征之间相关性较强,对于算法学习预测会影响较大。
    降低特征的个数,特征与特征之间不相关。
降维的两种方式
  1. 特征选择
  2. 主成分分析(可以理解一种特征提取的方式)
什么是特征选择
  1. 定义
    数据中包含冗余或相关变量(或称特征、属性、指标等),旨在从原有特征中找出主要特征。
    在这里插入图片描述
  2. 方法
  • Filter(过滤式):主要探究特征本身特点、特征与特征之间的相关性
    (1)方差选择法:低方差特征过滤
    (2)相关系数
  • Embedded(嵌入式):算法自动选择特征(特征与目标值之间的关联)
    (1)决策树:信息熵、信息增益
    (2)正则化:L1、L2
    (3)深度学习:卷积
  1. 模块
    sklearn.feature_selection
低方差特征过滤式

       删除低方差的一些特征:

  • 特征方差小:某个特征大多样本的值比较相近
  • 特征方差大:某个特征很多样本的值都有差别
  1. API
    sklearn.feature_selection.VarianceThreshold(threshold=0.0)
  • 删除所有低方差特征
  • Variance.fit_transform(X)
    X:numpy array格式的数据[n_samples,n_features]
    返回值:训练集差异低于threshold的特征将被删除。默认值是保留所有非0方差特征,即删除所有样本中具有相同值的特征。
  1. 数据计算
    对某些股票的指标特性之间进行一个筛选。除去‘index’,‘data’.'return’列不考虑(这些类型不匹配,也不是所需要指标)
    (1)导入包
    import pandas as pd
    from sklearn.feature_selection import VarianceThreshold
    (2)编写variance_demo()函数,内容如下:
   def variance_demo():
    '''
    低方差过滤
    :return:
    '''
    #1.获取数据
    data = pd.read_csv("E:\Python37\my code\skearncode\\factor_returns.csv")
    data = data.iloc[:,1:-2]
    #2.实例化一个转换器
    transfer = VarianceThreshold()
    #3.调用fit_transform
    data_new = transfer.fit_transform(data)
    print("data_new:\n", data_new, data_new.shape)
    return None

(3)在主函数中调用variance_demo()
(4)结果:
在这里插入图片描述

相关系数
  1. 定义
    皮尔逊相关系数(Pearson Correlation Coefficient):反映变量之间相关关系密切程度的统计指标。
  2. 公式
    在这里插入图片描述
  3. 特点
    相关系数的值介于-1与+1之间,即-1≤r≤+1。其性质如下:
  • 当r>0时,表示两变量正相关,r<0时,两变量为负相关。
  • 当| r |=1时,表示两变量为完全相关,当r=0时,表示两变量键无相关关系。
  • 当0<| r |<1时,表示两变量存在一定程度的相关。且| r |越接近1, 两变量间线性关系越密切;| r |越接近0,表示两变量的线性相关越弱。
  • 一般可按三级划分:| r |<0.4为低度相关;0.4≤| r |≤0.7为显著性相关;0.7≤| r |<1为高度线性相关。
  1. API
    from scipy stats import pearsonr
  • x:(N,)array_like
  • y:(N,)array_like Returns:(Pearson’s correiation coefficient,pvalue)
  1. 案例
    利用股票的这些指标进行相关性计算,假设以
    factor = [‘pe_ratio’,‘pb_ratio’,]计算这两个特征之间的相关性:
    (1)导入包
    from scipy.stats import pearsonr
    (2)在variance_demo()函数中添加如下代码:
# 4.计算某两个变量的相关系数
r1 = pearsonr(data["pe_ratio"],data["pb_ratio"])
print("相关系数:\n", r1)
r2 = pearsonr(data["revenue"], data["total_expense"])
print("相关系数:\n", r2)

(3)结果:
在这里插入图片描述
图片中的-0.004389322779936274和0.9958450413136111为相关系数。

特征与特征之间相关性很高时:
(1)选取其中一个
(2)加权求和
(3)主成分分析

通过循环对所有特征之间进行两两计算,可以得出相关性高的一些特征。
另外,也可以使用画图来观察结果:
(1)导入包
import matplotlib.pyplot as plt
(2)在variance_demo()函数中添加如下代码:

# 5.画图进行展示
plt.figure(figsize=(20,8),dpi=100)
plt.scatter(data["revenue"], data["total_expense"])
plt.show()

(3)结果:
在这里插入图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值