周志华机器学习笔记-C2

模型评估和选择

一、经验误差和过拟合

1、误差:学习器实际预测和真实输出之间的差异称为误差。训练集上的误差称为经验误差;在新样本上的误差称为泛化误差。有时候并不希望直接投入新样本学习,而是构建验证集,在验证集上的误差称为验证误差。

2、过拟合与欠拟合:过拟合即指经验误差小而泛化误差大的情形;欠拟合即指经验误差大的情形。机器学习算法易解决欠拟合,而需着重考虑过拟合。

二、模型评估实验方法

此节说明如何在不引入新样本的情况下对模型进行评估和测试,对象为样本固定的大训练集与待选出的训练与验证集。暂未提及评估好坏的指标。

1、留出法:直接将数据集分为两个互斥的训练集和验证集(约为2/3~4/5用于训练),要求分层随机采样,最后获得某个测试结果。常常需要做若干次随机留出法,将结果作平均。

2、交叉验证法:先将数据集分为k个大小相近的互斥子集,要求分层采样,用其中k-1个训练,1个验证,这样在一次采样下能有k个验证结果。同样需要若干随机采样,称为“p次k折交叉验证”。特例为“留一法”,它不用随机采样,但是计算量太大。

3、自助法:随机从大数据集(m个)有放回地挑m个数据作为训练集,再将其与原数据集的差集作为验证集。它的优点主要是改善了对于留出法和交叉验证法对于模型规模存在误差的问题。

4、调参:即根据验证结果,对模型的参数进行调整。

三、模型性能度量指标

此节认为已经完成实验,即已经获得测试或验证结果(若干样本的预测与真实值),进而分析模型的性能指标。本节主要对分类任务进行指标分析。

注意,此节学习器指学习算法本身,它在参数取定不同值、训练集不同时得到不同模型。

1、错误率与精度:即错误分类/正确分类的占总样本数的个数。

2、查准率、查全率与F1:查准即真正例占预测正例(含真正例与假正例)的比例;查全即真正例占实际正例(含真正例与假反例)的比例。F1/Fβ度量即查准与查全之(加权)调和平均,F1/Fβ大者认为模型综合表现好。对学习器进行评估可调整分类阈值(相当于参数)得到不同阈值下的模型与其查准查全率,从而获得PR曲线,可评估其BEP与面积。多分类则两两指标操作。

3、ROC与AUC:此为学习器指标,亦是求不同阈值下的真正例率(真正例占实际正例的比例)与假正例率(真反例占实际反例的比例)的曲线,称为ROC曲线,AUC指标即其面积。

4、代价敏感错误率与代价曲线:根据判断出错的代价不同,可重新定义上述指标为代价敏感指标。代价曲线可通过ROC得出。

模型泛化评估与模型间比较检验

此节亦认为完成实验测试,针对上节某一指标(错误率):a)判断得出的验证指标是否为泛化指标;b)判断两个或多个算法之间的优劣。转化为统计量的假设检验问题。(此节似乎不区分学习器与模型)

1、假设检验:假设即为模型泛化指标为给定某一值,验证指标视为对泛化指标的抽样。若抽样一次(如一次留出法的结果),则用二项分布检验;若多次,则用t分布检验。

2、交叉验证t检验:比较两个模型好坏的方法。它认为在多个同一测试集下两个学习器的验证指标如果相等,则两个学习器性能相同,而差值服从t分布用以判断假设。

3、McNemar检验:开方分布比较两个模型好坏。

4、Friedman检验与Nemenyi后续检验:多个模型可两两用2、3检验,也可统一用Frideman检验,这也是开方检验,比较指标为平均性能排序。但检验结果若为不同,则需后续判断孰优孰劣。Nemenyi后续检验是根据平均排序的差是否大于临界值进行判断的。

偏差与方差

此节提供一个理解算法泛化误差意义的途径。

期望泛化误差可分解为:偏差、方差、噪声。

1、期望泛化误差:算法预测与数据集标记之间的偏差平方在训练集平均下的误差,反映算法总的偏差。

2、偏差:学习算法期望预测(排除了训练集不同的影响)与真实结果(不含噪声)的偏离,反映了学习算法(对真实数据)本身的拟合能力。

3、方差:相同大小训练集变动导致的偏差,刻画数据扰动影响。

4、噪声:数据集标记与真实值的偏差,是固有偏差,期望泛化误差的下限。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值