机器学习（五）贝叶斯分类器之估算收入阶层

最新推荐文章于 2024-02-05 17:31:59 发布

雨陌潇潇

最新推荐文章于 2024-02-05 17:31:59 发布

阅读量1.4k

点赞数 4

分类专栏：机器学习文章标签： python 机器学习朴素贝叶斯算法人工智能

本文链接：https://blog.csdn.net/weixin_43689805/article/details/111318670

版权

机器学习专栏收录该内容

15 篇文章 6 订阅

订阅专栏

估算收入阶层

实验内容

本节将根据14个属性建立分类器评估一个人的收入等级。可能的输出类型是“高于50K”和“低于或等于50K”。这个数据集稍微有点复杂，里面的每个数据点都是数字和字符串的混合体。数值数据是有价值的，在这种情况下，不能用标记编码器进行编码。需要设计一套既可以处理数值数据，也可以处理非数值数据的系统。我们将用美国人口普查收入数据集中的数据： https://archive.ics.uci.edu/ml/datasets/Census+Income 。

知识链接

分类与上一章介绍的回归不同，回归的输出结果是实数。监督学习分类器就是用带标记的训练数据建立一个模型，然后对未知数据进行分类。
在真实世界中，分类器可以是非常复杂的形式。在学习过程中，可以看到二元（binary）分类器，将数据分成两类，也可以看到多元（multiclass）分类器，将数据分成两个以上的类型。解决分类问题的数据手段都倾向于解决二元分类问题，可以通过不同的形式对其进行扩展，进而解决多元分类问题。
朴素贝叶斯是一类比较简单的算法，scikit-learn中朴素贝叶斯类库的使用也比较简单。相对于决策树，KNN之类的算法，朴素贝叶斯需要关注的参数是比较少的，这样也比较容易掌握。在scikit-learn中，一共有3个朴素贝叶斯的分类算法类。分别是GaussianNB，MultinomialNB和BernoulliNB。其中GaussianNB就是先验为高斯分布的朴素贝叶斯，MultinomialNB就是先验为多项式分布的朴素贝叶斯，而BernoulliNB就是先验为伯努利分布的朴素贝叶斯。
一般来说，如果样本特征的分布大部分是连续值，使用GaussianNB会比较好。如果如果样本特征的分大部分是多元离散值，使用MultinomialNB比较合适。而如果样本特征是二元离散值或者很稀疏的多元离散值，应该使用BernoulliNB。
最后使用交叉验证检验模型准确性，避免出现欠拟合和过拟合的现象
当处理机器学习模型时，通常关心3个指标：精度（precision）、召回率（recall）和F1得分（F1 score）。可以用参数评分标准（parameter scoring）获得各项指标的得分。精度是指被分类器正确分类的样本数量占分类器总分类样本数量的百分比（分类器分类结果中，有一些样本分错了）。召回率是指被应正确分类的样本数量占某分类总样本数量的百分比（有一些样本属于某分类，但分类器却没有分出来）。
一个给力的机器学习模型需要同时具备良好的精度和召回率。这两个指标是二律背反的，一个指标达到100%，那么另一个指标就会非常差！我们需要保持两个指标能够同时处于合理高度。为了量化两个指标的均衡性，引入了F1得分指标，是精度和召回率的合成指标，实际上是精度和召回率的调和均值（harmonic mean）：F1 得分＝2×精度×召回率 / (精度＋召回率)

详细步骤

# 导入相关的包
import numpy as np
from sklearn import preprocessing
from sklearn.naive_bayes import GaussianNB
from sklearn import model_selection

# 加载数据集
input_file = "adult.data.txt"
X = []
y = []
count_lessthan50k = 0  # 统计收入<=50k的人数
count_morethan50k = 0  # 统计收入>50k的人数
num_images_threshold = 10000
'''
我们将使用数据集中的20 000个数据点——每种类型10 000个，保证初始类型没有偏差。
在模型训练时，如果你的大部分数据点都属于一个类型，那么分类器就会倾向于这个类型。因此，
最好使用每个类型数据点数量相等的数据进行训练：
'''
with open(input_file, 'r') as f:
    for line in f.readlines():
        if '?' in line:
            continue
        data = line[:-1].split(', ')   # 将每一行数据放到一个列表当中
        if data[-1] == '<=50K' and count_lessthan50k < num_images_threshold:
            X.append(data)
            count_lessthan50k += 1
        elif data[-1] == '>50K' and count_morethan50k < num_images_threshold:
            X.append(data)
            count_morethan50k += 1
        if count_lessthan50k >=num_images_threshold and count_morethan50k >= num_images_threshold:
            break

X = np.array(X)

# 标记编码
label_encoder = []
X_encoded = np.empty(X.shape)
for i,item in enumerate(X[0]):
    if item.isdigit():
        X_encoded[:, i] = X[:, i]  # 如果这个属性本身就是数值，那么直接不需要标记编码，原封不动即可！！
    else:
        label_encoder.append(preprocessing.LabelEncoder())
        X_encoded[:, i] = label_encoder[-1].fit_transform(X[:, i])

X = X_encoded[:, :-1].astype(int)
y = X_encoded[:, -1].astype(int)

# 创建分类器
classifier_gaussiannb = GaussianNB()
classifier_gaussiannb.fit(X, y)

# 把数据分割成训练数据集和测试数据集，方便后面获取性能指标：
X_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size=0.25, random_state=5)
classifier_gaussiannb = GaussianNB()
classifier_gaussiannb.fit(X_train, y_train)
y_test_pred = classifier_gaussiannb.predict(X_test)

# 交叉验证
# 计算分类器的F1得分
f1 = model_selection.cross_val_score(classifier_gaussiannb,
        X, y, scoring='f1_weighted', cv=5)
print("F1 score: " + str(round(100*f1.mean(), 2)) + "%")

# 使用单一的数据示例进行测试
input_data = ['39', 'State-gov', '77516', 'Bachelors', '13', 'Never-married', 'Adm-clerical', 'Not-in-family', 'White', 'Male', '2174', '0', '40', 'United-States']
count = 0
input_data_encoded = [-1] * len(input_data)
for i,item in enumerate(input_data):
    if item.isdigit():
        input_data_encoded[i] = int(input_data[i])
    else:
        input_data_encoded[i] = int(label_encoder[count].transform([input_data[i]]))
        count = count + 1

input_data_encoded = np.array(input_data_encoded)
input_data_encoded = input_data_encoded.reshape(1, len(input_data))

# 打印单一的数据示例的预测结果
output_class = classifier_gaussiannb.predict(input_data_encoded)
print(label_encoder[-1].inverse_transform(output_class)[0])  # 使用inverse_transform函数进行标记解码

源代码+数据集

链接：https://pan.baidu.com/s/19ModMp40DEny30F5h_Z-Pg
提取码：evyn
复制这段内容后打开百度网盘手机App，操作更方便哦

实验结果

在这里插入图片描述

雨陌潇潇

关注

4
点赞
踩
19

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习（五）贝叶斯分类器之估算收入阶层

估算收入阶层实验内容本节将根据14个属性建立分类器评估一个人的收入等级。可能的输出类型是“高于50K”和“低于或等于50K”。这个数据集稍微有点复杂，里面的每个数据点都是数字和字符串的混合体。数值数据是有价值的，在这种情况下，不能用标记编码器进行编码。需要设计一套既可以处理数值数据，也可以处理非数值数据的系统。我们将用美国人口普查收入数据集中的数据： https://archive.ics.uci.edu/ml/datasets/Census+Income 。知识链接分类与上一章介绍的回归不
复制链接

扫一扫