监督学习：为CharityML寻找捐献者-CSDN博客

本文链接：https://blog.csdn.net/weixin_43998698/article/details/124332020

本文探讨了如何使用监督学习方法为CharityML寻找潜在的高收入捐赠者。通过探索和预处理数据，包括数据清洗、特征转换和归一化，以及使用决策树、SVM和AdaBoost等模型进行预测。最终，AdaBoost模型在验证集上表现出最佳性能，准确率为0.8752，F-score为0.7669。模型调优进一步提高了预测性能，验证集的准确率提升到0.8752，F-score提升到0.7669。特征重要性分析显示，工作类别、资本收益、资本损失、工作时长和性别是最重要的预测特征。在测试集上，模型的准确率为0.8688，F-score为0.7548。

摘要由CSDN通过智能技术生成

监督学习

项目: 为CharityML寻找捐献者

前言

在这个项目中，笔者将使用1994年美国人口普查收集的数据，选用几个监督学习算法以准确地建模被调查者的收入。然后，根据初步结果从中选择出最佳的候选算法，并进一步优化该算法以最好地建模这些数据。目标是建立一个能够准确地预测被调查者年收入是否超过50000美元的模型。这种类型的任务会出现在那些依赖于捐款而存在的非营利性组织。了解人群的收入情况可以帮助一个非营利性的机构更好地了解他们要多大的捐赠，或是否他们应该接触这些人。虽然很难直接从公开的资源中推断出一个人的一般收入阶层，但是可以（也正是我们将要做的）从其他的一些公开的可获得的资源中获得一些特征从而推断出该值。

这个项目的数据集来自UCI机器学习知识库。这个数据集是由Ron Kohavi和Barry Becker在发表文章_“Scaling Up the Accuracy of Naive-Bayes Classifiers: A Decision-Tree Hybrid”_之后捐赠的，你可以在Ron Kohavi提供的在线版本中找到这个文章。我们在这里探索的数据集相比于原有的数据集有一些小小的改变，比如说移除了特征'fnlwgt' 以及一些遗失的或者是格式不正确的记录。

探索数据

载入需要的Python库并导入人口普查数据。注意数据集的最后一列'income'将是我们需要预测的列（表示被调查者的年收入会大于或者是最多50,000美元），人口普查数据中的每一列都将是关于被调查者的特征。

# 为这个项目导入需要的库
import numpy as np
import pandas as pd
from time import time
from IPython.display import display # 允许为DataFrame使用display()

# 导入附加的可视化代码visuals.py
import visuals as vs

# 为notebook提供更加漂亮的可视化
%matplotlib inline

# 导入人口普查数据
data = pd.read_csv("census.csv")

# 成功 - 显示第一条记录
display(data.head(n=1))

在这里插入图片描述

练习：数据探索

首先对数据集进行一个粗略的探索，看看每一个类别里会有多少被调查者？这些里面多大比例是年收入大于50,000美元的。在下面的代码单元中，我将计算以下数据：

总的记录数量，'n_records'
年收入大于50,000美元的人数，'n_greater_50k'.
年收入最多为50,000美元的人数 'n_at_most_50k'.
年收入大于50,000美元的人所占的比例， 'greater_percent'.

# TODO：总的记录数
n_records = len(data)

# TODO：被调查者的收入大于$50,000的人数
n_greater_50k = data['income'].isin(['>50K']).sum()

# TODO：被调查者的收入最多为$50,000的人数
n_at_most_50k = data['income'].isin(['<=50K']).sum()

# TODO：被调查者收入大于$50,000所占的比例
greater_percent = n_greater_50k / n_records *100

# 打印结果
print ("Total number of records: {}".format(n_records))
print ("Individuals making more than $50,000: {}".format(n_greater_50k))
print ("Individuals making at most $50,000: {}".format(n_at_most_50k))
print ("Percentage of individuals making more than $50,000: {:.2f}%".format(greater_percent))

Total number of records: 45222
Individuals making more than $50,000: 11208
Individuals making at most $50,000: 34014
Percentage of individuals making more than $50,000: 24.78%

准备数据

在数据能够被作为输入提供给机器学习算法之前，它经常需要被清洗，格式化，和重新组织 - 这通常被叫做预处理。幸运的是，对于这个数据集，没有我们必须处理的无效或丢失的条目，然而，由于某一些特征存在的特性我们必须进行一定的调整。这个预处理都可以极大地帮助我们提升几乎所有的学习算法的结果和预测能力。

获得特征和标签

income 列是我们需要的标签，记录一个人的年收入是否高于50K。因此我们应该把他从数据中剥离出来，单独存放。

# 将数据切分成特征和对应的标签
income_raw = data['income']
features_raw = data.drop('income', axis = 1)

转换倾斜的连续特征

一个数据集有时可能包含至少一个靠近某个数字的特征，但有时也会有一些相对来说存在极大值或者极小值的不平凡分布的的特征。算法对这种分布的数据会十分敏感，并且如果这种数据没有能够很好地规一化处理会使得算法表现不佳。在人口普查数据集的两个特征符合这个描述：'capital-gain'和'capital-loss'。

运行下面的代码单元以创建一个关于这两个特征的条形图。请注意当前的值的范围和它们是如何分布的。

# 可视化 'capital-gain'和'capital-loss' 两个特征
vs.distribution(features_raw)

请添加图片描述
对于高度倾斜分布的特征如’capital-gain’和’capital-loss’，常见的做法是对数据施加一个对数转换，将数据转换成对数，这样非常大和非常小的值不会对学习算法产生负面的影响。并且使用对数变换显著降低了由于异常值所造成的数据范围异常。但是在应用这个变换时必须小心：因为0的对数是没有定义的，所以我们必须先将数据处理成一个比0稍微大一点的数以成功完成对数转换。

运行下面的代码单元来执行数据的转换和可视化结果。再次，注意值的范围和它们是如何分布的。

# 对于倾斜的数据使用Log转换
skewed = ['capital-gain', 'capital-loss']
features_raw[skewed] = data[skewed].apply(lambda x: np.log(x + 1))

# 可视化对数转换后 'capital-gain'和'capital-loss' 两个特征
vs.distribution(features_raw, transformed = True)

请添加图片描述

规一化数字特征

除了对于高度倾斜的特征施加转换，对数值特征施加一些形式的缩放通常会是一个好的习惯。在数据上面施加一个缩放并不会改变数据分布的形式（比如上面说的’capital-gain’ or ‘capital-loss’）；但是，规一化保证了每一个特征在使用监督学习器的时候能够被平等的对待。注意一旦使用了缩放，观察数据的原始形式不再具有它本来的意义了，就像下面的例子展示的。

运行下面的代码单元来规一化每一个数字特征。将使用sklearn.preprocessing.MinMaxScaler来完成这个任务。

from sklearn.preprocessing import MinMaxScaler

# 初始化一个 scaler，并将它施加到特征上
scaler = MinMaxScaler()
numerical = ['age', 'education-num', 'capital-gain', 'capital-loss', 'hours-per-week']
features_raw[numerical] = scaler.fit_transform(data[numerical])

# 显示一个经过缩放的样例记录
display(features_raw.head(n = 1))

在这里插入图片描述

数据预处理

从上面的数据探索中的表中，可以看到有几个属性的每一条记录都是非数字的。通常情况下，学习算法期望输入是数字的，这要求非数字的特征（称为类别变量）被转换。转换类别变量的一种流行的方法是使用独热编码方案。独热编码为每一个非数字特征的每一个可能的类别创建一个_“虚拟”_变量。例如，假设someFeature有三个可能的取值A，B或者C，。我们将把这个特征编码成someFeature_A, someFeature_B和someFeature_C.

此外，对于非数字的特征，我们需要将非数字的标签'income'转换成数值以保证学习算法能够正常工作。因为这个标签只有两种可能的类别（“<=50K"和”>50K"），我们不必要使用独热编码，可以直接将他们编码分别成两个类0和1，在下面的代码单元中你将实现以下功能：

使用pandas.get_dummies()对'features_raw'数据来施加一个独热编码。
将目标标签'income_raw'转换成数字项。
- 将"<=50K"转换成0；将">50K"转换成1。

# TODO：使用pandas.get_dummies()对'features_raw'数据进行独热编码
features = pd.get_dummies(features_raw)

# TODO：将'income_raw'编码成数字值
income = income_raw.replace(['<=50K', '>50K'], [0, 1])

# 打印经过独热编码之后的特征数量
encoded = list(features.columns)
print ("{} total features after one-hot encoding.".format(len(encoded)))

# 移除下面一行的注释以观察编码的特征名字
print(encoded)

103 total features after one-hot encoding.
[‘age’, ‘education-num’, ‘capital-gain’, ‘capital-loss’, ‘hours-per-week’, ‘workclass_ Federal-gov’, ‘workclass_ Local-gov’, ‘workclass_ Private’, ‘workclass_ Self-emp-inc’, ‘workclass_ Self-emp-not-inc’, ‘workclass_ State-gov’, ‘workclass_ Without-pay’, ‘education_level_ 10th’, ‘education_level_ 11th’, ‘education_level_ 12th’, ‘education_level_ 1st-4th’, ‘education_level_ 5th-6th’, ‘education_level_ 7th-8th’, ‘education_level_ 9th’, ‘education_level_ Assoc-acdm’, ‘education_level_ Assoc-voc’,