机器学习(九) - - 模型评估和选择④比较检验

模型评估其实是非常困难的!想对比两个模型好坏也是非常难的。

//艰难困阻如下:

 

1.有很多个模型的时候我们需要考量这些模型的“泛化能力”如何来继而选择一个更符合我们预期的模型。然而我们是无法得知具体泛化能力的,只能分出一些“测试样本”来测试模型的表现表现作为“泛化能力”的指标。

 

2.测试集上的性能和样本选择有关系,不论大小是否相等,包含不同的样本结果就会有所差异。

 

3.很多学习算法有一定的随机性,相同的参数运行多次结果未必一样(比如之前的随机抽样)

 

主流方法:

1.   当前方法的大前提—— 假设检验:对学习器泛化错误率分布有某种判断或猜测,例如错误率为某个定值。根据测试错误率推出泛化错误率的分布。(直观上二者接近的可能性比较大)

二项式检验:对错误率小于定值定值a这样的假设进行检验

t检验: 错误率都集中分布在某个定值周围的检验手段(度娘具体介绍:t分布

 

2.    用于比较两个学习器优劣的方法——交叉验证t检验

基本思想是如果两个学习器性能相同,则他们使用相同的训练/测试集得到的错误率应该相同。

具体方法:对“学习器A和B性能相同”这个假设做T检验,计算出均值和方差,如果小于某个你定的阈值,那么就可以认为是相同,否则取平均错误小的那个作为性能更优的模型。

 

 

3.    二分类问题除了错误率获取两个分类器的分类结果差别McNemar检验

把两者都分对了,都分错了一个对一个错都罗列出来的那种……

McNemar检验英文全称为McNemar's testfor correlated proportions,主要用于配对资料率的检验(相当于配对卡方检验)
In statistics,McNemar's test is a non-parametricmethod used on nominal data.It is applied to 2 × 2 contingency tables with a dichotomous trait,with matched pairs ofsubjects,to determine whether the row and column marginal frequencies are equal("marginal homogeneity").It is named after Quinn McNemar,whointroduced it in 1947.A celebrated application of the test in genetics is thetransmission disequilibrium test for detecting genetic linkage.

 

4.    多个算法进行比较的方法——Friedman检验和Nemenyi后续检验(进行排序)

 




看得有点浮光掠影哈,抱歉


祝学习愉快~: )

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

朱铭德

五毛也是爱٩(●´৺`●)૭

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值