机器学习好伙伴之scikit-learn的使用——验证曲线

最新推荐文章于 2023-10-01 21:28:47 发布

Bubbliiiing

最新推荐文章于 2023-10-01 21:28:47 发布

阅读量2.9k

点赞数 4

分类专栏： sklearn的使用小教程文章标签：验证曲线 scikit-learn 机器学习

本文链接：https://blog.csdn.net/weixin_44791964/article/details/100568567

版权

sklearn的使用小教程专栏收录该内容

8 篇文章 32 订阅

订阅专栏

机器学习好伙伴之scikit-learn的使用——验证曲线

什么是验证曲线
sklearn中验证曲线的实现
应用示例

什么是验证曲线呢，其内容主要包含当超参数变化时，loss的变化情况。
在这里插入图片描述

什么是验证曲线

验证曲线主要反应的是当超参数变化时，模型的训练状况，常用的表示方法是训练集的loss和测试集的loss与超参数之间的关系，其作用是可以帮助我们选择合适的超参数。其示意图如下：
在这里插入图片描述

sklearn中验证曲线的实现

在进行验证曲线的绘制之前，首先要导入验证曲线的绘制的模块。

from sklearn.model_selection import validation_curve

验证曲线的绘制的重要函数是：

validation_curve(
	estimator, 
	X, y, 
	param_name, 
	param_range, 
	groups=None, 
	cv=’warn’, 
	scoring=None, 
	n_jobs=None, 
	pre_dispatch=’all’, 
	verbose=0, 
	error_score=’raise-deprecating’
)

其常用参数如下：
1、estimator：用于预测的模型
2、X：预测的特征数据
3、y：预测结果
4、param_name：超参数的名称
5、param_range：超参数的取值范围
6、cv：交叉验证生成器或可迭代的次数
7、scoring：调用的方法
可进行的scoring方式具体可以查阅https://scikit-learn.org/stable/modules/model_evaluation.html#scoring-parameter
在这里插入图片描述
使用方式如下：

# 从1e-6到1e-2次方，分五段
param_range = np.logspace(-6, -2, 5)

#使用validation_curve快速找出参数对模型的影响
train_loss, test_loss = validation_curve(
    SVC(), X, y, param_name='gamma', 
    param_range=param_range, cv=10, scoring='neg_mean_squared_error')

代表使用SVM的分类模型，输入特征为X，输出label为y，进行10折交叉验证，通过均值平方差的方式计分，学习曲线分为5段，进行绘制的超参数是gamma，选取的范围是param_range。
其一共具有2个返回值，分别是train_loss, test_loss，其中train_loss指的是训练集的loss，其shape为(5,10)，第n行对应学习曲线的第n段，第n行的内容代表着第n段的10折交叉验证的结果；test_loss的含义与train_loss类似，其对应的是测试集的loss。

应用示例

代码源自莫烦python教学网站

# 验证曲线模块
from sklearn.model_selection import validation_curve 
# 导入digits数据集
from sklearn.datasets import load_digits 
# 支持向量机
from sklearn.svm import SVC 
import matplotlib.pyplot as plt
import numpy as np

digits = load_digits()
X = digits.data
y = digits.target

# 建立参数测试集
# 从1e-6到1e-2次方，分五段
param_range = np.logspace(-6, -2, 5)

#使用validation_curve快速找出参数对模型的影响
train_loss, test_loss = validation_curve(
    SVC(), X, y, param_name='gamma', param_range=param_range, cv=10, scoring='neg_mean_squared_error')
    
# loss值为负数，需要取反
train_loss_mean = -np.mean(train_loss, axis=1)
test_loss_mean = -np.mean(test_loss, axis=1)

# 设置样式与label
plt.plot(param_range, train_loss_mean, 'o-', color="r",
         label="Training")
plt.plot(param_range, test_loss_mean, 'o-', color="g",
        label="Cross-validation")

plt.xlabel("Training examples")
plt.ylabel("Loss")
# 显示图例
plt.legend(loc="best")
plt.show()

实验结果为：
在这里插入图片描述

Bubbliiiing

关注

4
点赞
踩
12

收藏

觉得还不错? 一键收藏
打赏
2
评论
机器学习好伙伴之scikit-learn的使用——验证曲线

机器学习好伙伴之scikit-learn的使用——验证曲线什么是验证曲线sklearn中验证曲线的实现应用示例什么是验证曲线呢，其内容主要包含当超参数变化时，loss的变化情况。什么是验证曲线验证曲线主要反应的是当超参数变化时，模型的训练状况，常用的表示方法是训练集的loss和测试集的loss与超参数之间的关系。其示意图如下：sklearn中验证曲线的实现在进行验证曲线的绘制之前，首...
复制链接

扫一扫