skLearn 特征工程

最新推荐文章于 2024-06-09 16:06:50 发布

6-Tong

最新推荐文章于 2024-06-09 16:06:50 发布

阅读量173

点赞数

分类专栏： Python 文章标签： python sklearn 特征值分解

本文链接：https://blog.csdn.net/weixin_45852947/article/details/118930044

版权

Python 专栏收录该内容

5 篇文章

订阅专栏

该博客展示了数据预处理的多种方法，包括标准化、区间缩放、归一化、二值化和哑编码，以及如何处理缺失值。此外，还介绍了特征选择技术，如方差选择法、SelectKBest、RFE，并用IRIS数据集进行实例演示。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考：https://github.com/fuqiuai/sklearn-feature-engineering

from sklearn.feature_selection import SelectFromModel
from sklearn.linear_model import LogisticRegression
from sklearn.feature_selection import RFE
from sklearn.feature_selection import chi2
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import VarianceThreshold
from sklearn.preprocessing import FunctionTransformer
from numpy import log1p
from sklearn.preprocessing import PolynomialFeatures
from sklearn.impute import SimpleImputer as Imputer
from numpy import vstack, array, nan
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import Binarizer
from sklearn.preprocessing import Normalizer
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_iris

# 导入IRIS数据集
iris = load_iris()

# 特征矩阵
iris.data

# 目标向量
iris.target
print("original")
print(iris.data)
print("---------------------")


# 标准化，返回值为标准化后的数据
iris1 = StandardScaler().fit_transform(iris.data)
print("after standardlize")
print(iris1)
print("---------------------")

# 区间缩放，返回值为缩放到[0, 1]区间的数据
iris2 = MinMaxScaler().fit_transform(iris.data)
print("0-1")
print(iris2)
print("---------------------")

# 归一化，返回值为归一化后的数据
iris3 = Normalizer().fit_transform(iris.data)
print("after normalized")
print(iris3)
print("---------------------")


# 二值化，阈值设置为3，返回值为二值化后的数据
iris4 = Binarizer(threshold=3).fit_transform(iris.data)
print("after binarized")
print(iris4)
print("---------------------")

# 哑编码，对IRIS数据集的目标值，返回值为哑编码后的数据
iris5 = OneHotEncoder().fit_transform(iris.target.reshape((-1, 1)))
print("after oneHot")
print(iris5)
print("---------------------")


# 缺失值计算，返回值为计算缺失值后的数据
# 参数missing_value为缺失值的表示形式，默认为NaN
# 参数strategy为缺失值填充方式，默认为mean（均值）
iris6 = vstack((array([nan, nan, nan, nan]), iris.data))
print("add nan nan nan nan to the data:")
print(iris6)
print("---------------------")

iris7 = Imputer().fit_transform(
    vstack((array([nan, nan, nan, nan]), iris.data)))
print("after fill the nan with mean:")
print(iris7)
print("---------------------")


# 多项式转换
# 参数degree为度，默认值为2
iris8 = PolynomialFeatures().fit_transform(iris.data)
print("after PolynomialFeatures:")
print(iris8)
print("---------------------")

# 自定义转换函数为对数函数的数据变换
# 第一个参数是单变元函数
iris9 = FunctionTransformer(log1p).fit_transform(iris.data)
print("after FunctionTransformer:")
print(iris9)
print("---------------------")


# 方差选择法，返回值为特征选择后的数据
# 参数threshold为方差的阈值
iris10 = VarianceThreshold(threshold=3).fit_transform(iris.data)
print("VarianceThreshold:")
print(iris10)
print("---------------------")


# 选择K个最好的特征，返回选择特征后的数据
iris11 = SelectKBest(chi2, k=2).fit_transform(iris.data, iris.target)
print("SelectKBest:")
print(iris11)
print("---------------------")


# 递归特征消除法，返回特征选择后的数据
# 参数estimator为基模型
# 参数n_features_to_select为选择的特征个数
iris12 = RFE(estimator=LogisticRegression(), n_features_to_select=2).fit_transform(
    iris.data, iris.target)
print("features_to_select:")
print(iris12)
print("---------------------")