模型比较
选择合适的评估方法和相应的性能度量,计算出性能度量后直接比较。
存在以下问题:
模型评估得到的是测试集上的性能,并非严格意义上的泛化性能,两者并不完全相同
测试集上的性能与样本选取关系很大,不同的划分,测试结果会不同,比较缺乏稳定性
很多模型本身有随机性,即使参数和数据集相同,其运行结果也存在差异
假设检验
统计假设检验(Hypothesis Tset):事先对总体的参数或者分布做一个假设,然后基于已有的样本数据去判断这个假设是否合理。即样本和总体假设之间的不同纯属机会变异(因为随机性误差导致的不同),还是两者确实不同。常用的假设检验方法有T-检验法、X2检验法(卡方检验)、F-检验法等。
基本思想:
从样本推断整体
通过反正法推断假设是否成立
小概率事件在一次试验中基本不会发生
不轻易拒绝原假设
通过显著性水平定义小概率事件不可能发生的概率
全称命题只能被否定而不能被证明
假设检验步骤
假设检验的例子:二项式检验
假设检验的例子:T检验
假设检验在模型比较中的应用