ML模型评估

最新推荐文章于 2023-09-28 11:30:56 发布

Rocket,Qian

最新推荐文章于 2023-09-28 11:30:56 发布

阅读量2.5k

点赞数 1

分类专栏：机器学习工具 # sklearn 文章标签：机器学习 python

本文链接：https://blog.csdn.net/weixin_44127327/article/details/108632230

版权

机器学习工具同时被 2 个专栏收录

12 篇文章 1 订阅

订阅专栏

sklearn

8 篇文章 0 订阅

订阅专栏

模型评估

1. 交叉验证模型
2. 创建一个基准回归模型
3. 创建一个基准分类模型
4. 评估二元分类器
5. 评估二元分类器的阈值
6. 评估多元分类器
7. 分类器性能的可视化
8. 评估回归模型
9. 评估聚类模型
10. 创建自定义评估指标
11. 可视化训练集规模的影响
12. 生成对评估指标的报告
13. 可视化超参数值的效果

1. 交叉验证模型

问题描述：评估生成的模型在实际应用中的表现

解决方案:创建一个流水线，对数据进行预处理、训练模型，然后用交叉验证方法评估模型的性能。

from sklearn import datasets
from sklearn import metrics
from sklearn.model_selection import KFold,cross_val_score
from sklearn.pipeline import make_pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler

#加载手写数字的数据集
digits = datasets.load_digits()
#创建特征矩阵
features = digits.data
#创建目标向量
target = digits.target
#创建标准化对象
standardizer = StandardScaler()
#创建逻辑回归对象
LR = LogisticRegression()
#创建包含数据标准化和逻辑回归的流水线
pipeline = make_pipeline(standardizer,LR)
#创建K折交叉验证对象
kf = KFold(n_splits=10,shuffle=True,random_state=1)
#执行K折交叉验证
cv_results = cross_val_score(pipeline,
                             features,
                             target,
                             cv=kf, #交叉验证方法
                             scoring="accuracy", #损失函数
                             n_jobs=-1) #使用所有CPU内核
#计算得分的平均值
cv_results.mean()
output:
0.9693916821849783

2. 创建一个基准回归模型

问题描述：需要一个简单基础回归模型，用于与算法生成的模型进行对比。

解决方案：使用sklearn的DummyRegressor创建一个简单的基准回归模型

from sklearn.datasets import load_boston
from sklearn.dummy import DummyRegressor
from sklearn.model_selection import train_test_split

# 加载数据
boston = load_boston()
#创建特征矩阵和目标向量
features,target = boston.data,boston.target
#将数据分为测试集和训练集
features_train,features_test,target_train,target_test = train_test_split(features,target,random_state=0)
#创建DummyRegressor对象
dummy = DummyRegressor(strategy='mean')
#训练回归模型
dummy.fit(features_train,target_train)
#计算R方得分
dummy.score(features_test,target_test)
output:
-0.001119359203955339

from sklearn.linear_model import LinearRegression
#训练简单线性回归模型
LR = LinearRegression()
LR.fit(features_train,target_train)
#计算R得分
LR.score(features_test,target_test)
output:
0.635463843320211

3. 创建一个基准分类模型

问题描述：需要一个简单基础分类模型，用于与算法生成的模型进行对比。

解决方案：使用sklearn的DummyClassifier创建一个简单的基准分类模型

from sklearn.datasets import load_iris
from sklearn.dummy import DummyClassifier
from sklearn.model_selection import train_test_split

# 加载数据
iris = load_iris()
#创建特征矩阵和目标向量
features,target = iris.data,iris.target
#将数据分为测试集和训练集
features_train,features_test,target_train,target_test = train_test_split(features,target,random_state=0)
#创建DummyClassifier对象
dummy = DummyClassifier(strategy='uniform',random_state = 1)
#训练回归模型
dummy.fit(features_train,target_train)
#计算R方得分
dummy.score(features_test,target_test)
output:
0.42105263157894735

from sklearn.ensemble import RandomForestClassifier
#训练简单线性回归模型
RF = RandomForestClassifier()
RF.fit(features_train,target_train)
#计算R得分
RF.score(features_test,target_test)
output:
0.9736842105263158

4. 评估二元分类器

问题描述：给定一个训练后的二元分类器，评估它的性能

解决方案：使用sklearn的cross_val_score方法进行交叉验证，同时使用Scoring参数来决定性能评估指标，可以在准确率、精确度、召回率和F1分数等多种指标中选择。

$准确率={TP+TN\over TP+TN+FP+FN}$

from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import make_classification
#生成特征矩阵和目标向量
X,y = make_classification(n_samples = 10000,
                          n_features = 3,
                          n_informative = 3,
                          n_redundant = 0,
                          n_classes = 2,
                          random_state = 1)
#创建逻辑回归对象
LR = LogisticRegression()
#使用准确率对模型进行交叉验证
cross_val_score(LR,X,y,scoring = "accuracy")
output:
array([0.9555, 0.95  , 0.9585, 0.9555, 0.956 ])

精确度

cross_val_score(LR,X,y,scoring="precision")
output:
array([0.95963673, 0.94820717, 0.9635996 , 0.96149949, 0.96060606])

召回率

cross_val_score(LR,X,y,scoring="recall")
output:
array([0.951, 0.952, 0.953, 0.949, 0.951])

F1分数

cross_val_score(LR,X,y,scoring="f1")
output:
array([0.95529884, 0.9500998 , 0.95827049, 0.95520886, 0.95577889])

5. 评估二元分类器的阈值

评估二元分类器的性能，并对多个可能的阈值进行评估。

解决方案：ROC曲线是评估二元分类器质量的常用方法。ROC曲线会对每一个概率阈值(即用来区分样本属于正类或负类的概率值)比较其真阳性和假阳性的比例。在scikit-learn中，可以使用roc_curve来计算每个阈值下的真阳性率(True Postive Rate)和假阳性率(False Positive Rate)，然后用图绘制出来。

import matplotlib.pyplot as plt
from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_curve,roc_auc_score
from sklearn.model_selection import train_test_split

#创建特征矩阵和目标向量
features,target = make_classification(n_samples=10000,
                                      n_features=10,
                                      n_classes=2,
                                      n_informative=3,
                                      random_state=3)
#将样本划分为测试集和训练集
features_train,features_test,target_train,target_test=train_test_split(features,target,test_size=0.1,random_state=1)
#创建分类器
LR = LogisticRegression()
#训练模型
LR.fit(features_train,target_train)
#获取预测的概率
target_probabilities = LR.predict_proba(features_test)[:,1]
#计算真阳性和假阳性概率
false_positive_rate,true_positive_rate,threshold = roc_curve(target_test,target_probabilities)
#画出ROC曲线
plt.title("Receiver Operating Characteristic:")
plt.plot(false_positive_rate,true_positive_rate)
plt.plot([0,1],ls="--")
plt.plot([0,0],[1,0],c="0.7"),plt.plot([1,1],c="0.7")
plt.ylabel("True Positive Rate")
plt.xlabel("False Positive Rate")
plt.show()

在这里插入图片描述
查看第一个样本的预测概率：

LR.predict_proba(features_test)[0:1]
--->
array([[0.86891533, 0.13108467]])

查看分类：

LR.classes_
--->
array([0, 1])

提高Threshold，则TPR和FPR的值都会显著下降，这是因为对样本被预测为正类的要求提高了，模型无法识别一些正类样本(TPR较小)，而且被错误预测为正类的负类样本也减小了(FPR较小)。

AUC
在scikit-learn中，可以使用roc_auc_score来计算AUC值。

roc_auc_score(target_test,target_probabilities)
--->
0.9073389355742297

6. 评估多元分类器

评估一个能预测三个或更多分类的分类器性能

解决方案：使用能够处理两个以上分类的评估指标进行交叉验证

样本分类均衡
准确率是评估模型性能的简单且可解释的指标
分类数据不均衡
应该使用其他评估指标，例如：精确度、召回率和F1分数等。

7. 分类器性能的可视化

给定测试集数据的预测分类和真实分类，希望能够可视化地比较不同模型的性能。

解决方案：使用混淆矩阵(Confusion Matrix)来比较预测分类(predicted Class)和真实分类(True Class):

import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
from sklearn import datasets
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix

#加载数据
iris = datasets.load_iris()
#创建特征矩阵
features = iris.data
#提取目标向量
target = iris.target
#创建目标分类的名称列表
class_names = iris.target_names
#划分测试集和训练集
features_train,features_test,target_train,target_test = train_test_split(features,target ,random_state=1)
#创建LR
LR = LogisticRegression()
#训练模型并预测
target_predicted = LR.fit(features_train,target_train).predict(features_test)
#创建混淆矩阵
matrix = confusion_matrix(target_test,target_predicted)
#创建一个DataFrame
dataframe = pd.DataFrame(matrix,index =class_names,columns = class_names)
#绘制热力图
sns.heatmap(dataframe,annot = True,cbar=None,cmap="Blues")
plt.title("Confusion Matrix"),plt.tight_layout()
plt.ylabel("True Class"),plt.xlabel("predicted Class")
plt.show()

在这里插入图片描述
矩阵的每一列表示样本的预测分类，而每一行表示样本的真实分类。
该模型成功地预测了9个真实分类为Iris virginica的样本，而错误地将1个真实分类为Iris versicolor的样本预测为Iris virginica。

8. 评估回归模型

使用均方误差：

from sklearn.datasets import make_regression
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import cross_val_score

#创建特征矩阵和目标向量
features,target = make_regression(n_samples=100,
                                  n_features=3,
                                  n_informative=3,
                                  n_targets=1,
                                  noise=50,
                                  coef=False,
                                  random_state=1)
LR = LinearRegression()
#使用MSE对线性回归做交叉验证
cross_val_score(LR,features,target,scoring='neg_mean_squared_error')
--->
array([-1974.65337976, -2004.54137625, -3935.19355723, -1060.04361386,
       -1598.74104702])

另一个常用的评估回归模型的指标是决定系数(coefficient of determination,即得分)

#使用决定系数对线性回归做交叉验证
cross_val_score(LR,features,target,scoring='r2')
--->
array([0.8622399 , 0.85838075, 0.74723548, 0.91354743, 0.84469331])

MSE:

${1\over n}\sum_{i=1}^n(\hat{y_i}-y_i)^2$
$R^2$ 得分：
$R^2 = 1-{\sum_{i=1}^n(y_i-\hat{y_i})^2 \over \sum_{i=1}^n(y_i-\overline y)^2}$
$R^2$ 得分越接近1，代表模型性能越好。

9. 评估聚类模型

问题描述：使用无监督学习对数据进行聚类，需要评估聚类模型的性能

解决方案:可能无法评估聚类模型的性能，至少不会按预想的方式评估。
一种可选的方式是使用轮廓系数(silhouette coefficient)。轮廓系数可以用来衡量聚类的质量：

import numpy as np
from sklearn.metrics import silhouette_score
from sklearn import datasets
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs

#创建特征矩阵和目标向量
features,_ = make_blobs(n_samples=1000,
                        n_features=10,
                        centers=2,
                        cluster_std=0.5,
                        shuffle=True,
                        random_state=1)
#使用kmeans方法对数据聚类、以预测其分类
model = KMeans(n_clusters=2,random_state=1).fit(features)
#获取预测的分类
target_predicted = model.labels_
#评估模型
silhouette_score(features,target_predicted)
--->
0.8916265564072142

好的聚类中同类样本间的距离非常小(即稠密聚类)，不同类别的样本之间距离非常大(即分离得很彻底)。轮廓系数可以用一个值同时评估这两种特性。第i个样本的轮廓系数的计算公式为：

$s_i={b_i-a_i \over max(a_i,b_i)}$
其中， $s_i$ 是样本i的轮廓系数， $a_i$ 是样本i与同类的所有样本间的平均距离， $b_i$ 是样本i与来自不同分类的最近聚类的所有样本间的平均距离。silhouette_score返回的值是所有样本的平均轮廓系数。值介于-1和1之间。

10. 创建自定义评估指标

将评估指标实现为一个函数，并使用sklearn的make_scorer将其转换为评分函数：

from sklearn.metrics import make_scorer,r2_score
from sklearn.datasets import make_regression
from sklearn.linear_model import Ridge
from sklearn.model_selection import train_test_split

#创建特征矩阵和目标向量
features,target = make_regression(n_samples=100,
                                  n_features=3,
                                  random_state=1)
#创建测试集和训练集
features_train,features_test,target_train,target_test=train_test_split(features,target,test_size=0.10,random_state=1)

#创建自定义指标函数
def custom_metric(target_test,target_predicted):
  #计算R方得分
  r2 = r2_score(target_test,target_predicted)
  #返回R方得分
  return r2
#创建评分函数，并且定义分数越高代表模型越好
score = make_scorer(custom_metric,greater_is_better=True)
#创建岭回归对象
classifier = Ridge()
#训练岭回归模型
model = classifier.fit(features_train,target_train)
#应用自定义评分器
score(model,features_test,target_test)
--->
0.9997906102882058

在实际情况中，可以使用任意自定义指标替换custom_metric函数。

11. 可视化训练集规模的影响

绘制学习曲线来评估训练集中观察值的数量对某个指标的影响。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_digits
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import learning_curve

#加载数据
digits = load_digits()
#创建特征矩阵和目标向量
features,target = digits.data,digits.target
#使用交叉验证为不同规模的训练集计算训练和测试得分
train_sizes,train_scores,test_scores = learning_curve(RandomForestClassifier(),
                                                   features,
                                                   target,
                                                   cv=10,
                                                   scoring='accuracy',
                                                   #使用所有CPU内核
                                                   n_jobs=-1,
                                                   #50个训练集的规模
                                                   train_sizes=np.linspace(0.01,1.0,50))
#计算训练集得分的平均值和标准差
train_mean = np.mean(train_scores,axis=1)
train_std = np.std(train_scores,axis=1)
#计算测试集得分的平均值和标准差
test_mean = np.mean(test_scores,axis=1)
test_std = np.std(test_scores,axis=1)

#绘制曲线
plt.plot(train_sizes,train_mean,'--',color="#111111",label="Training score")
plt.plot(train_sizes,test_mean,color="#111111",label="Cross-validation score")
#画带状图
plt.fill_between(train_sizes,train_mean - train_std,
                 train_mean+train_std,color="#DDDDDD")
plt.fill_between(train_sizes,test_mean - test_std,
                 test_mean+test_std,color="#DDDDDD")
#创建图
plt.title("Learning Curve")
plt.ylabel("Accuracy Score")
plt.xlabel("Training Set Size")
plt.legend(loc="best")
plt.tight_layout()
plt.show()

在这里插入图片描述

学习曲线将模型在训练集上和交叉验证时的性能(例如准确率、召回率)以及与训练集样本数量之间的关系可视化地表达出来。此方法常被用来判断增加训练集数据规模能否提升模型的性能。

12. 生成对评估指标的报告

快速描述一个分类器的性能
使用sklearn的classification_report函数：

from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# 加载数据
iris = load_iris()
#创建特征矩阵和目标向量
features,target = iris.data,iris.target
#创建目标分类名的列表
class_names = iris.target_names
#将数据分为测试集和训练集
features_train,features_test,target_train,target_test = train_test_split(features,target,random_state=0)
#创建LR对象
classifier = LogisticRegression()
#训练回归模型并作出预测
model = classifier.fit(features_train,target_train)
target_predicted = model.predict(features_test)
#生成分类器的性能报告
print(classification_report(target_test,
                            target_predicted,
                            target_names=class_names))

—>

            precision  recall   f1-score   support
            
setosa        1.00      1.00      1.00        13
versicolor    1.00      0.94      0.97        16 
virginica     0.90      1.00      0.95         9

accuracy                          0.97        38
macro avg     0.97      0.98      0.97        38
weighted avg  0.98      0.97      0.97        38

classification_report提供了快速查看一些常见模型评估指标的方法，这些指标包括精确度、召回率和F1分数。输出support列是指分类中的样本数量。

13. 可视化超参数值的效果

绘制验证曲线了解超参数的变化对模型性能的影响

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_digits
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import validation_curve

#加载数据
digits = load_digits()
#创建特征矩阵和目标向量
features,target = digits.data,digits.target
#创建参数的变化范围
param_range = np.arange(1,250,2)
#对区间内的参数值分别计算模型在训练集和测试集上的准确率
train_scores,test_scores = validation_curve(RandomForestClassifier(),
                                            features,
                                            target,
                                            #要查看的超参数
                                            param_name='n_estimators',
                                            #超参数值得范围
                                            param_range =param_range,
                                            #交叉验证的折数
                                            cv=3,
                                            #性能指标
                                            scoring="accuracy",
                                            #使用所有CPU
                                            n_jobs=-1)
#计算训练集得分的平均值和标准差
train_mean = np.mean(train_scores,axis=1)
train_std = np.std(train_scores,axis=1)
#计算测试集得分的平均值和标准差
test_mean = np.mean(test_scores,axis=1)
test_std = np.std(test_scores,axis=1)

#画出模型在训练集和测试集上的准确率的平均值
plt.plot(param_range,train_mean,label="Training score",color="black")
plt.plot(param_range,test_mean,label="Cross-validation score",color="dimgrey")
#画出模型在训练集和测试集上的准确率带状图
plt.fill_between(param_range,train_mean - train_std,
                 train_mean+train_std,color="gray")
plt.fill_between(param_range,test_mean - test_std,
                 test_mean+test_std,color="gainsboro")
#创建图
plt.title("Validation Curve With Random Forest")
plt.ylabel("Accuracy Score")
plt.xlabel("Number Of Trees")
plt.legend(loc="best")
plt.tight_layout()
plt.show()

在这里插入图片描述

在scikit-learn中，可以使用validation_curve计算验证曲线，包含3个重要参数：

param_name：需要变化的超参数的名字
param_range：超参数取值区间
scoring：模型评估指标

参考：Python机器学习手册

后续整理完所有的笔记，所有代码会放到github中！链接: https://github.com/DuoduoMoney/.

Rocket,Qian

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
ML模型评估

模型评估1. 交叉验证模型2. 创建一个基准回归模型3. 创建一个基准分类模型4. 评估二元分类器5. 评估二元分类器的阈值6. 评估多元分类器7. 分类器性能的可视化8. 评估回归模型9. 评估聚类模型10. 创建自定义评估指标11. 可视化训练集规模的影响12. 生成对评估指标的报告13. 可视化超参数值的效果1. 交叉验证模型问题描述：评估生成的模型在实际应用中的表现解决方案:创建一个流水线，对数据进行预处理、训练模型，然后用交叉验证方法评估模型的性能。from sklearn import
复制链接

扫一扫