树模型特征选择-对特征的重要性排序

还不秃顶的计科生

于 2024-08-23 23:12:56 发布

阅读量91

点赞数 3

分类专栏：机器学习文章标签：机器学习人工智能深度学习 python 算法

本文链接：https://blog.csdn.net/weixin_74009895/article/details/141475298

版权

机器学习专栏收录该内容

15 篇文章 0 订阅

订阅专栏

基本定义：

树模型特征选择是指在构建树模型（如决策树、随机森林等）的过程中，识别和选择对分类或回归任务最有影响力的特征。这些特征会用于后续的节点分裂，从而优化模型的性能。特征选择的目标是减少特征的数量，同时保持或提高模型的预测能力，以减少过拟合的风险，提高模型的泛化能力。

模型特征选择的原理基于两个关键概念：纯度和信息增益。纯度是指节点中目标变量的混杂程度，信息增益是指在某个特征的条件下，目标变量的不确定性减少的程度。树模型特征选择的方法通常包括基于纯度的方法和基于信息增益的方法。

公式参数：

（1）实现流程

代码实现：

（1）示例

现在我以"电信银行卡诈骗的数据分析"为例，需要通过树模型特征选择对目标值影响因素最大的特征属性并排名。

（2）代码

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
import matplotlib.pyplot as plt
import numpy as np

# 第一步：加载数据
file_path = '电信银行卡诈骗的数据分析.csv'
data = pd.read_csv(file_path)

# 第二步：数据预处理
# 假设最后一列是目标变量，其余列是特征
X = data.iloc[:, :-1]  # 特征（所有列，除了最后一列）
y = data.iloc[:, -1]   # 目标变量（最后一列）

# 如果存在类别型变量，将其进行独热编码
X = pd.get_dummies(X)

# 第三步：训练决策树分类器
clf = DecisionTreeClassifier(random_state=0)
clf.fit(X, y)

# 第四步：按重要性对特征进行排序
importances = clf.feature_importances_
indices = np.argsort(importances)[::-1]

# 打印特征重要性排序
print("特征重要性排序:")
for f in range(X.shape[1]):
    print(f"{f + 1}. 特征 {X.columns[indices[f]]} （重要性: {importances[indices[f]]}）")

# 第五步：可视化特征重要性
plt.figure(figsize=(10, 6))
plt.title("特征重要性")
plt.bar(range(X.shape[1]), importances[indices], align='center')
plt.xticks(range(X.shape[1]), [X.columns[i] for i in indices], rotation=90)
plt.xlim([-1, X.shape[1]])
plt.show()