统计假设检验的选择是解释机器学习结果的一个具有挑战性的开放问题。
在1998年被广泛引用的论文中,Thomas Dietterich在训练多份分类器模型副本昂贵而且不切实际的情况下推荐了McNemar检验。
它描述了深度学习模型的现状,模型非常大并且在大型数据集上进行训练和评估,一个模型通常需要数天或数周来训练。
在本教程中,你将了解如何使用McNemar统计假设检验来比较单个测试数据集上的机器学习分类模型。
完成本教程后,你将了解:
- McNemar检验适合大型深度学习模型。
- 如何将两个分类器的预测结果转换为列联表,以及如何使用它来计算McNemar检验中的统计量。
- 如何用Python计算McNemar检验并解释和报告结果。
让我们开始吧。