特征工程(持续更新中……)

注:1、2都是针对目标值为离散变量的情况

1、筛选类别型变量的方法:

①通过绘制堆叠图来分析每个类别对y的影响,若不同类别对y的影响比较显著,则选用该指标,否则不选

import pandas as pd
df = pd.DataFrame([[12,1],[12,1],[22,1],[22,1],[12,0],[12,0],[12,0],[22,0],[22,0]])
column_name = ['age', 'y']
df.columns = column_name
import seaborn as sns
sns.set(style='whitegrid', color_codes=True)
table = pd.crosstab(df.age, df.y)
table.div(table.sum(axis=1).astype(float),axis=0).plot(kind='bar', stacked=True)
import matplotlib.pyplot as plt
plt.title('age and y')
plt.xlabel('age')
plt.ylabel('y')
plt.show()

 ②通过绘制条形图来分析该离散变量的每个类别间关于y是否存在显著差异,若各个类别的情况显著不同,则选择该变量进入最终模型,否则舍弃

sns.barplot('pclass', 'survived', data=df)
plt.show()

# 2、堆叠图的结果为:
table = pd.crosstab(df.pclass, df.survived)
table.div(table.sum(1).astype(float), axis=0).plot(kind='bar', stacked=True)
plt.show()

代码详见11LG_titanic.py(地址为:待补充)

根据这幅图,可以认为pclass的不同类别对survived有不同的影响,所以选用该变量进入模型(堆叠图如下:)

2、对连续型变量进行特征选择:

①画核密度图:

# 绘制age的核密度图
plt.figure(figsize=(15, 8))
ax = sns.kdeplot(final['age'][final['survived']==1], color='darkturquoise', shade=True)
sns.kdeplot(final['age'][final['survived']==0], color='lightcoral', shade=True)
plt.legend(['survived', 'died'])
plt.title('Density plot of age for surviving and died people')
plt.xlabel('age')
plt.xlim([-10,85])
plt.show()
# 发现生还和死亡者的密度分布大致相似,唯一最大的区别是在生还者中存在大量的低龄乘客,说明当时预先保留了孩子的生还机会

代码详见11LG_titanic.py(地址为:https://nbviewer.jupyter.org/github/gongtian1234/2019-/blob/master/11LG_titannic.ipynb) 

②进行T-test:

## 用t-test对比较连续型变量的差异 ##
import scipy.stats as stats
# https://www.cnblogs.com/IvyWong/p/10134012.html
# 方差齐性检验
print(stats.levene(train_1['Fare'][train_1['Survived']==1], train_1['Age'][train_1['Survived']==0]))
## p值小于0.05,认为方差不具有齐性
# 两独立样本T检验
print(stats.ttest_ind(train_1['Fare'][train_1['Survived']==1], train_1['Age'][train_1['Survived']==0], equal_var=False))
## p值小于0.05,认为二者间具有显著性差异
####

# 【注意】可以根据需求,将以上代码稍加改动以用于筛选连续型变量

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值