机器学习 - 特征降维

最新推荐文章于 2025-02-13 15:20:37 发布

想胖的壮壮

最新推荐文章于 2025-02-13 15:20:37 发布

阅读量2.1k

点赞数 34

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/weixin_47552266/article/details/138958066

版权

特征降维（Feature Dimensionality Reduction）是机器学习和数据分析中一项重要的预处理技术，其目的是在保留尽可能多的有效信息的前提下，减少特征（即维度）的数量。这不仅可以减少模型的计算复杂度，还可以帮助提高模型的性能，减少过拟合。特征降维主要有两类方法：特征选择（Feature Selection）和特征提取（Feature Extraction）。

特征选择（Feature Selection）

特征选择通过选择原始特征中的子集来减少特征数量。常见的特征选择方法包括：

过滤法（Filter Method）：
- 通过统计指标来选择特征，如方差、相关性、互信息等。
- 常见方法有方差阈值法、卡方检验、皮尔逊相关系数、互信息法等。
包裹法（Wrapper Method）：
- 通过某种搜索策略选择特征，评估标准是模型的性能。
- 常见方法有递归特征消除（Recursive Feature Elimination, RFE）等。
嵌入法（Embedded Method）：
- 结合特征选择过程和模型训练过程，通过某种正则化方法进行特征选择。
- 常见方法有L1正则化（Lasso回归）、决策树等。

示例：使用皮尔逊相关系数进行特征选择

import pandas as pd
import numpy as np

# 生成示例数据
np.random.seed(0)
data = pd.DataFrame({
    'Feature1': np.random.rand(100),
    'Feature2': np.random.rand(100),
    'Feature3': np.random.rand(100),
    'Target': np.random.rand(100)
})

# 计算每个特征与目标变量的相关系数
correlations = data.corr()['Target'].drop('Target')

# 选择相关系数绝对值大于0.1的特征
selected_features = correlations[abs(correlations) > 0.1].index.tolist()

print("Selected Features:", selected_features)

特征提取（Feature Extraction）

特征提取通过将原始特征转换成新的低维特征来实现降维。常见的特征提取方法包括：

主成分分析（PCA, Principal Component Analysis）：
- 通过线性变换将数据投影到新的坐标系中，新坐标系的基向量是原始特征的主成分，这些主成分是彼此正交的。
- 目的是找到一个新空间，在这个新空间中数据的方差最大化。
线性判别分析（LDA, Linear Discriminant Analysis）：
- 通过线性变换将数据投影到新的坐标系中，最大化类间距离和最小化类内距离。
- 常用于分类任务中的降维。
t-SNE（t-Distributed Stochastic Neighbor Embedding）：
- 非线性降维方法，通过最小化高维空间和低维空间的概率分布差异来实现降维。
- 常用于高维数据的可视化。

示例：使用PCA进行特征提取

from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

# 生成示例数据
np.random.seed(0)
data = np.random.rand(100, 5)

# 创建PCA对象并拟合数据
pca = PCA(n_components=2)
reduced_data = pca.fit_transform(data)

# 可视化降维后的数据
plt.scatter(reduced_data[:, 0], reduced_data[:, 1])
plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 2')
plt.title('PCA Dimensionality Reduction')
plt.show()