特征筛选

最新推荐文章于 2024-04-22 20:12:23 发布

大佬喝可乐

最新推荐文章于 2024-04-22 20:12:23 发布

阅读量558

点赞数

分类专栏：机器学习文章标签：数据分析

本文链接：https://blog.csdn.net/weixin_44322171/article/details/105025931

版权

机器学习专栏收录该内容

14 篇文章 0 订阅

订阅专栏

@[数据挖掘](特征筛选)

特征筛选

常见的特征工程包括：

异常处理：

通过箱线图（或 3-Sigma）分析删除异常值；
BOX-COX 转换（处理有偏分布）；
长尾截断；

特征归一化/标准化：

标准化（转换为标准正态分布）；
归一化（抓换到 [0,1] 区间）；
针对幂律分布，可以采用公式： log[(1+x)/(1+median)]

数据分桶：

等频分桶；
等距分桶；
Best-KS 分桶（类似利用基尼指数进行二分类）；
卡方分桶；

缺失值处理：

不处理（针对类似 XGBoost 等树模型）；
删除（缺失数据太多）；
插值补全，包括均值/中位数/众数/建模预测/多重插补/压缩感知补全/矩阵补全等；
分箱，缺失值一个箱；

特征构造：

构造统计量特征，报告计数、求和、比例、标准差等；
时间特征，包括相对时间和绝对时间，节假日，双休日等；
地理信息，包括分箱，分布编码等方法；
非线性变换，包括 log/ 平方/ 根号等；
特征组合，特征交叉；
仁者见仁，智者见智。

特征筛选

过滤式（filter）：先对数据进行特征选择，然后在训练学习器，常见的方法有 Relief/方差选择发/相关系数法/卡方检验法/互信息法；
包裹式（wrapper）：直接把最终将要使用的学习器的性能作为特征子集的评价准则，常见方法有 LVM（Las Vegas Wrapper）；
嵌入式（embedding）：结合过滤式和包裹式，学习器训练过程中自动进行了特征选择，常见的有 lasso 回归；

降维

PCA/ LDA/ ICA；
特征选择也是一种降维。

特征筛选

wrapping包裹法

（1）Recursive Feature Elimination (RFE)回归特征消除法

递归特征消除(RFE)以机器学习模型的实例和最终需要使用的特征数作为输入。然后递归地减少要使用的特征数量通过使用机器学习模型的准确性作为度量来对它们进行排序。

import time
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib.pyplot import figure
import seaborn as sns
from sklearn import preprocessing
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report,confusion_matrix
from sklearn import tree
from sklearn.ensemble import RandomForestClassifier
from sklearn import svm

from sklearn.feature_selection import RFE
model = RandomForestClassifier(n_estimators=700)
rfe = RFE(model, 4)
start = time.process_time()
RFE_X_Train = rfe.fit_transform(X_Train,Y_Train)
RFE_X_Test = rfe.transform(X_Test)
rfe = rfe.fit(RFE_X_Train,Y_Train)
print(time.process_time() - start)
print("Overall Accuracy using RFE: ", rfe.score(RFE_X_Test,Y_Test))

在将这些数据输入到我们的机器学习模型之前，对所有的分类变量进行一次热编码，将我们的数据划分为特征(X)和标签(Y)。

X = df.drop(['class'], axis = 1) Y = df['class'] X = pd.get_dummies(X, prefix_sep='_') Y = LabelEncoder().fit_transform(Y)
X2 = StandardScaler().fit_transform(X)
X_Train, X_Test, Y_Train, Y_Test = train_test_split(X2, Y, test_size = 0.30, 
 random_state = 101)

可视化

import graphviz
from sklearn.tree import DecisionTreeClassifier, export_graphviz
data = export_graphviz(trainedtree,out_file=None,feature_names= X.columns,
 class_names=['edible', 'poisonous'], 
 filled=True, rounded=True, 
 max_depth=2,
 special_characters=True)
graph = graphviz.Source(data)
graph

SelecFromModel

该模型具有coef_ or feature_importances_
根据阈值划分，不涉及迭代优化

from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import ExtraTreesClassifier
model = ExtraTreesClassifier()
start = time.process_time()
model = model.fit(X_Train, Y_Train)
model = SelectFromModel(model, prefit=True)
print(time.process_time() - start)
Selected_X = model.transform(X_Train)

start = time.process_time()
traindforest = RandomForestClassifier(n_estimators=700).fit(Selected_X, Y_train)
print(time.process_time() - start)
Select_X_Test = model.transform(X_Test)
predictionforest = trainedforest.predict(Selected_X_Test)
print(confusion_matrix(Y_Test, predictionforest))
print(classification_report(Y_Test, predictionforest))

特征间相关性分析

Numeric_df=pd.DataFrame(X)
Numeric_df['Y']=Y
corr=Numeric_df.corr()
corr_y=abs(corr["Y"])
highest_corr=corr_y[corr_y>0.5]
highest_corr.sort_values(ascending=True)

figure(num=None, figsize=(12, 10), dpi=80, facecolor='w', edgecolor='k')
corr2=Numeric_df[['bruises_f' , 'bruises_t' , 'gill-color_b' , 'gill-size_b' , 
'gill-size_n' , 'ring-type_p' , 'stalk-surface-below-ring_k' , 'stalk-surface-above-ring_k' , 'odor_f', 'odor_n']].corr()
sns.heatmap(corr2, annot=True, fmt=".2g")

大佬喝可乐

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
特征筛选

@[数据挖掘](特征筛选)特征筛选常见的特征工程包括：异常处理：通过箱线图（或 3-Sigma）分析删除异常值；BOX-COX 转换（处理有偏分布）；长尾截断；特征归一化/标准化：标准化（转换为标准正态分布）；归一化（抓换到 [0,1] 区间）；针对幂律分布，可以采用公式： log[(1+x)/(1+median)]数据分桶：等频分桶；等距分桶；Best-KS 分桶...
复制链接

扫一扫

专栏目录