第八章 训练与测试

1. 训练概念

训练是一个过程,使用默认值或随机值进行系统的初始化,然后重新配置它。使参数调整后与我们想要了解的数据相协调。

2. 训练

训练集所有待学习的样本连同他们的标签一起被称为训练集。

训练过程

将每个样本交给分类器进行预测
if 预测结果==正确标签:
	继续下一个样本
else:
	把分类器的输出和正确的标签返回给分类器,之后更新分类器
	通过正确的标签、预测标签和分类器的当前状态来修改分类器内部参数

每将训练集完整的运行一次 就称训练了一个epoch,通常需要对同一个系统训练多个epoch

3.交叉验证(数据量少,又称 轮换验证)

核心思想: 通过运行一个循环多次训练和测试系统

使用交叉验证评估系统的性能

目标

在给定一组超参数的情况下,如何确定系统的性能,同时又不牺牲20%的宝贵训练数据集,避免将他们用作无法训练的专用验证集。

解决办法

step1: 构建一个新的分类器,而后在训练集上训练分类器,并使用临时验证集对其进行评估,这会获得分类器性能的分数。
stpe2: 再次运行这个循环,这次把数据分割为临时训练集和临时验证集时,这些数据被分割为新的集,与我们之前尝试过的任何一次分割都不同。通过这种方式,一遍一遍的运行循环,把训练集分割成新的集合,进行训练和验证,并获得分类器性能分数。
step3: 所有分数的平均值就是我们对分类器总体分数的评估。

优点

不存在数据泄露问题,因为每次运行循环时,我们都会创建一个新的分类器,而这个分类器的临时验证集对于特定的分类器来说是未曾见过的全新数据,所以它来评估分类器性能是公平的。

K折交叉验证

K为折叠次数 为整数
这一算法开始于评估系统以前,把数据集分成一系列大小相等的块,并将每一个块称为一个折叠

#5折循环过程
1. 第一次循环,将2~5折中的样本作为训练集,而将1折中的样本作为临时验证集。
2. 第二次循环,将13~5折中的样本作为训练集,将2这种的样本作为临时验证集。
3. ...
4. ...
5. ...
6. 将上述5次循环得到的分数求取平均值 就是系统的最终分数
K折特点
  1. 数据集少时使用交叉验证时很好的选择。
  2. 但是如果想要对系统的性能进行一个很好的评估,就需要多次重复 训练-验证的循环;
  3. 但是用时间换取训练能力,这样做可以从输入集中摄取每一点信息,应当用他们使得分类器变动的更好。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

李少女_辣辣妹

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值