2.4 比较检验 问题: 希望比较的是泛化技能,实验评估方法得到的是测试集上的性能’ 测试集上的性能与测试集本身的选择有很大关系。大小、包含测试样例的不同,都会影响测试结果。 很多学习算法有一定随机性 采用统计假设检验 2.4.1 假设检验 学习器泛化错误率为,测试错误率为,在包含m个样本的测试集上,泛化错误率为的学习器被测得测试错误率为的概率为: