动手学数据分析——task5：模型搭建和评估

最新推荐文章于 2023-11-01 02:41:00 发布

白猫警长wxr

最新推荐文章于 2023-11-01 02:41:00 发布

阅读量257

点赞数

本文链接：https://blog.csdn.net/weixin_57878519/article/details/118158381

版权

第三章模型搭建和评估-建模
#导入数据库

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from IPython.display import Image

%matplotlib inline

plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
plt.rcParams['figure.figsize'] = (10, 6)  # 设置输出图片大小

载入这些库，如果缺少某些库，请安装他们

【思考】这些库的作用是什么呢？你需要查一查
【回答】1、matplotlib.pyplot：Matplotlib是Python的绘图库，其中的pyplot包封装了很多画图的函数。Matplotlib.pyplot包含一系列类似 MATLAB 中绘图函数的相关函数。
2、seaborn：Seaborn是一种基于matplotlib的图形可视化python libraty。它提供了一种高度交互式界面，便于用户能够做出各种有吸引力的统计图表。Seaborn其实是在matplotlib的基础上进行了更高级的API封装，从而使得作图更加容易，在大多数情况下使用seaborn就能做出很具有吸引力的图，而使用matplotlib就能制作具有更多特色的图。应该把Seaborn视为matplotlib的补充，而不是替代物。同时它能高度兼容numpy与pandas数据结构以及scipy与statsmodels等统计模式。
【拓展】一些属性及功能：plt.rcParams[‘axes.unicode_minus’] = False 字符显示
plt.rcParams[‘font.sans-serif’] = ‘SimHei’ 设置字体
plt.rcParams[‘lines.xx’] = 线条样式
xtick、ytick 横、纵轴
figure、savefig 图像、图片
载入我们提供清洗之后的数据(clear_data.csv)，大家也将原始数据载入（train.csv），说说他们有什么不同
#读取原数据集

train = pd.read_csv('train.csv')
train.shape

（891，12）

train.head()

在这里插入图片描述 #读取清洗过的数据集

data = pd.read_csv('clear_data.csv')

data.shape

(891, 11)

data.head

在这里插入图片描述【两者区别】清洗过的数据集把PassengerId从0开始计数，Survived被拿出当label了。Name、Ticket、Cabin 这些分类较多、缺失值多的文本型数据的列被删除了，而Sex和Embarked这些分类较少的类别型文本型数据被编码了
模型搭建
处理完前面的数据我们就得到建模数据，下一步是选择合适模型
在进行模型选择之前我们需要先知道数据集最终是进行监督学习还是无监督学习
模型的选择一方面是通过我们的任务来决定的。
除了根据我们任务来选择模型外，还可以根据数据样本量以及特征的稀疏性来决定
刚开始我们总是先尝试使用一个基本的模型来作为其baseline，进而再训练其他模型做对比，最终选择泛化能力或性能比较好的模型
【思考】数据集哪些差异会导致模型在拟合数据是发生变化
【回答】1、样本数量2、是否是分类问题3、数据是否有标记4、数据特征维度
任务一：切割训练集和测试集
这里使用留出法划分数据集

将数据集分为自变量和因变量
按比例切割训练集和测试集(一般测试集的比例有30%、25%、20%、15%和10%)
使用分层抽样
设置随机种子以便结果能复现
【思考】1、划分数据集的方法有哪些？
2、为什么使用分层抽样，这样的好处有什么？
【回答】1、留出法(Hold-out)、交叉验证法(Cross validation)、自助法(Bootstrapping)
2、分层抽样将总体单位按其属性特征分成若干类型或层，然后在类型或层中随机抽取样本单位。好处是通过划类分层，增大了各类型中单位间的共同性，容易抽出具有代表性的调查样本，抽样误差比较小。
要从clear_data.csv和train.csv中提取train_test_split()所需的参数

from sklearn.model_selection import train_test_split

# 一般先取出X和y后再切割，有些情况会使用到未切割的，这时候X和y就可以用,x是清洗好的数据，y是我们要预测的存活数据'Survived'
X = data # 样本特征集
y = train['Survived'] # 样本标签集

# 对数据集进行切割
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=0)

# 查看数据形状
X_train.shape, X_test.shape

（（668，11），（223，11））

参考链接：sklearn的train_test_split()各函数参数含义解释（非常全）https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

【思考】什么情况下切割数据集的时候不用进行随机选取
【回答】可以不用随机选取的情况是数据集本身就足够随机，这种情况一般是随机处理后的。或者使用交叉验证法中的留一法处理数据。
**任务二：**模型创建
创建基于线性模型的分类模型（逻辑回归）
创建基于树的分类模型（决策树、随机森林）
分别使用这些模型进行训练，分别的到训练集和测试集的得分
查看模型的参数，并更改参数值，观察模型变化

from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier

# 默认参数逻辑回归模型
lr = LogisticRegression()
lr.fit(X_train, y_train)

# 查看训练集和测试集score值
print("Training set score: {:.3f}".format(lr.score(X_train, y_train)))
print("Testing set score: {:.3f}".format(lr.score(X_test, y_test)))

Training set score: 0.805
Testing set score: 0.785

lr2 = LogisticRegression(C=100) # C为正则化系数λ的倒数，这里取100，C值越大，对应的正则化越弱，越容易过拟合。
lr2.fit(X_train, y_train)

LogisticRegression(C=100, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=None, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)

print("Training set score: {:.3f}".format(lr2.score(X_train, y_train)))
print("Testing set score: {:.3f}".format(lr2.score(X_test, y_test)))

Training set score: 0.801
Testing set score: 0.794

【分析】可以看出与之前相比，训练集得分下降了，但是测试集得分上升了。这是调参确定惩罚项系数，目标是使得测试集的得分尽可能的高。
【参考链接】https://blog.csdn.net/CherDW/article/details/54891073?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.channel_param&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.channel_param

# 默认参数的随机森林分类模型
rfc = RandomForestClassifier()
rfc.fit(X_train, y_train)

RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
                       max_depth=None, max_features='auto', max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=10,
                       n_jobs=None, oob_score=False, random_state=None,
                       verbose=0, warm_start=False)

print("Training set score: {:.2f}".format(rfc.score(X_train, y_train)))
print("Testing set score: {:.2f}".format(rfc.score(X_test, y_test)))

Training set score: 1.00
Testing set score: 0.83

# 调整参数后的随机森林分类模型
rfc2 = RandomForestClassifier(n_estimators=100, max_depth=5)
rfc2.fit(X_train, y_train)

RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
                       max_depth=5, max_features='auto', max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=100,
                       n_jobs=None, oob_score=False, random_state=None,
                       verbose=0, warm_start=False)

print("Training set score: {:.3f}".format(rfc2.score(X_train, y_train)))
print("Testing set score: {:.3f}".format(rfc2.score(X_test, y_test)))

Training set score: 0.864
Testing set score: 0.816

可以看出随机森林集成方法测试集比逻辑回归分数高很多
参考链接：https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html
【思考】为什么线性模型可以进行分类任务，背后是怎么的数学关系
对于多分类问题，线性模型是怎么进行分类的
【回答】f(x)=wTx+b
如果函数值小于0，我们就预测类别-1，如果函数值大于0，我们就预测类别+1。对于所有用于分类的线性模型，这个预测规则都是通用的。对于用于分类的线性模型，决策边界是输入的线性函数。换句话说，（二元）线性分类器是利用直线、平面或超平面来分开两个类别的分类器。
多分类的问题常常是使用差分策略，通过二分类学习来解决多分类问题，即将多分类问题拆解为多个二分类训练二分类学习器最后通过继承得到结果，最经典拆分策略有三种：“一对一”（OvO）、“一对其余”（OvR）和“多对多”（MvM）。
任务三：输出模型预测结果
输出模型预测分类标签
输出不同分类标签的预测概率

# 预测标签
pred = lr.predict(X_train)

# 此时我们可以看到0和1的数组
pred[:10]

array([0, 1, 1, 1, 0, 0, 1, 0, 1, 1])

# 预测标签概率
pred_proba = lr.predict_proba(X_train)

pred_proba[:10]

array([[0.60870022, 0.39129978],
       [0.17725433, 0.82274567],
       [0.40750365, 0.59249635],
       [0.18925851, 0.81074149],
       [0.87973912, 0.12026088],
       [0.91374559, 0.08625441],
       [0.13293198, 0.86706802],
       [0.90560801, 0.09439199],
       [0.05283987, 0.94716013],
       [0.10936016, 0.89063984]])

【思考】预测标签的概率对我们有什么帮助
【回答】预测标签的概率能够让我们判断该标签的可信度，越接近1的话可信度越高。
第三章模型搭建和评估-评估
加载下面的库

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from IPython.display import Image
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier

%matplotlib inline

plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
plt.rcParams['figure.figsize'] = (10, 6)  # 设置输出图片大小

任务：加载数据并分割测试集和训练集

from sklearn.model_selection import train_test_split

# 一般先取出X和y后再切割，有些情况会使用到未切割的，这时候X和y就可以用,x是清洗好的数据，y是我们要预测的存活数据'Survived'
data = pd.read_csv('clear_data.csv')
train = pd.read_csv('train.csv')
X = data
y = train['Survived']

# 对数据集进行切割
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=0)

# 默认参数逻辑回归模型
lr = LogisticRegression()
lr.fit(X_train, y_train)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='warn', n_jobs=None, penalty='l2',
                   random_state=None, solver='warn', tol=0.0001, verbose=0,
                   warm_start=False)

模型评估
模型评估是为了知道模型的泛化能力。
交叉验证（cross-validation）是一种评估泛化性能的统计学方法，它比单次划分训练集和测试集的方法更加稳定、全面。
在交叉验证中，数据被多次划分，并且需要训练多个模型。
最常用的交叉验证是 k 折交叉验证（k-fold cross-validation），其中 k 是由用户指定的数字，通常取 5 或 10。
准确率（precision）度量的是被预测为正例的样本中有多少是真正的正例
召回率（recall）度量的是正类样本中有多少被预测为正类
f-分数是准确率与召回率的调和平均
【思考】将上面的概念进一步的理解，大家可以做一下总结
【回答】即使学习器在训练集上表现得很好，它在测试集上的表现也不一定很好，它可能把训练样本自身的一些特点当作潜在样本都会具有的一般性质，导致泛化能力下降，我们称之为过拟合。我们的实际目的其实是希望学习器能在新样本有很好的表现，这就要对模型的泛化能力进行模型评估。如何进行模型评估和选择？有几种常见的评估方法：留出法、交叉验证法、自助法
任务一：交叉验证
用10折交叉验证来评估之前的逻辑回归模型
计算交叉验证精度的平均值

#提示：交叉验证
Image('Snipaste_2020-01-05_16-37-56.png')

在这里插入图片描述

# k折交叉验证分数
scores

array([0.82352941, 0.77941176, 0.80597015, 0.82089552, 0.8358209 ,
       0.88059701, 0.72727273, 0.84848485, 0.75757576, 0.71212121])

# 平均交叉验证分数
print("Average cross-validation score: {:.2f}".format(scores.mean()))

Average cross-validation score: 0.80

【思考4】k折越多的情况下会带来什么样的影响？
【回答】一般而言，k折越多，评估结果的稳定性和保真性越高，不过整个计算复杂度越高。一种特殊的情况是k=m，m为数据集样本个数，这种特例称为留一法，结果往往比较准确

任务二：混淆矩阵
计算二分类问题的混淆矩阵
计算精确率、召回率以及f-分数
【思考】什么是二分类问题的混淆矩阵，理解这个概念，知道它主要是运算到什么任务中的
【回答】二分类问题的混淆矩阵是一个 2 维方阵，它主要用于评估二分类问题的好坏，它主要运用于二分类任务中。实际上，多分类问题依然可以转换为二分类问题进行处理。

#提示：混淆矩阵
Image('Snipaste_2020-01-05_16-38-26.png')

在这里插入图片描述

#提示：准确率 (Accuracy),精确度（Precision）,Recall,f-分数计算方法
Image('Snipaste_2020-01-05_16-39-27.png')

在这里插入图片描述提示5
混淆矩阵的方法在sklearn中的sklearn.metrics模块
混淆矩阵需要输入真实标签和预测标签
精确率、召回率以及f-分数可使用classification_report模块

from sklearn.metrics import confusion_matrix

# 训练模型
lr = LogisticRegression(C=100)
lr.fit(X_train, y_train)

LogisticRegression(C=100, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='warn', n_jobs=None, penalty='l2',
                   random_state=None, solver='warn', tol=0.0001, verbose=0,
                   warm_start=False)

# 模型预测结果
pred = lr.predict(X_train)

# 混淆矩阵
confusion_matrix(y_train, pred)

array([[350,  62],
       [ 71, 185]], dtype=int64)

from sklearn.metrics import classification_report

# 精确率、召回率以及f1-score
print(classification_report(y_train, pred))

precision    recall  f1-score   support

           0       0.83      0.85      0.84       412
           1       0.75      0.72      0.74       256

    accuracy                           0.80       668
   macro avg       0.79      0.79      0.79       668
weighted avg       0.80      0.80      0.80       668

【思考】如果自己实现混淆矩阵的时候该注意什么问题
【回答】按照定义, 混淆矩阵 C 中的元素 Ci,j 等于真实值为组 i , 而预测为组 j 的观测数(the number of observations)。所以对于二分类任务, 预测结果中, 正确的负例数(true negatives, TN)为 C0,0; 错误的负例数(false negatives, FN)为 C1,0; 真实的正例数为 C1,1; 错误的正例数为 C0,1。
　　如果 labels 为 None, scikit-learn 会把在出现在 y_true 或 y_pred 中的所有值添加到标记列表 labels 中, 并排好序。
　　任务三：ROC曲线
绘制ROC曲线
【思考】什么是OCR曲线，OCR曲线的存在是为了解决什么问题？
【回答】思考回答】ROC的全称是Receiver Operating Characteristic Curve，中文名字叫“受试者工作特征曲线”，顾名思义，其主要的分析方法就是画这条特征曲线。
TPR=TP+FNTP ， F P R = F P F P + T N F P R=\frac{F P}{F P+T N} FPR=FP+TNFP
在ROC曲线图中，每个点以对应的FPR值为横坐标，以TPR值为纵坐标，其它符号的意义前面提过。

ROC曲线的存在主要用于衡量模型的泛化性能，即分类效果的好坏。
在这里插入图片描述
【参考链接】https://blog.csdn.net/qq_30992103/article/details/99730059

from sklearn.metrics import roc_curve

fpr, tpr, thresholds = roc_curve(y_test, lr.decision_function(X_test))
plt.plot(fpr, tpr, label="ROC Curve")
plt.xlabel("FPR")
plt.ylabel("TPR (recall)")
# 找到最接近于0的阈值
close_zero = np.argmin(np.abs(thresholds)) # 取得最接近0阈值的索引值
plt.plot(fpr[close_zero], tpr[close_zero], 'o', markersize=10, label="threshold zero", fillstyle="none", c='k', mew=2)
plt.legend(loc=4)

<matplotlib.legend.Legend at 0x13624c53808>

在这里插入图片描述
思考6
对于多分类问题如何绘制ROC曲线
【回答】
经典的ROC曲线适用于对二分类问题进行模型评估，通常将它推广到多分类问题的方式有两种：对于每种类别，分别计算其将所有样本点的预测概率作为阈值所得到的TPR和FPR值(是这种类别为正，其他类别为负)，最后将每个取定的阈值下，对应所有类别的TPR值和FPR值分别求平均，得到最终对应这个阈值的TPR和FPR值。
首先，对于一个测试样本：1）标签只由0和1组成，1的位置表明了它的类别（可对应二分类问题中的“正”），0就表示其他类别（“负”）；2）要是分类器对该测试样本分类正确，则该样本标签中1对应的位置在概率矩阵P中的值是大于0对应的位置的概率值的。
【参考链接】https://blog.csdn.net/qq_30992103/article/details/99730059