阅读文献的时候提到多次,决定还是存一些资料。
基准测试流程可能需要运行多次,并使用一个聚合平滑度量 smoothed measure(如中值median value)进行比较
为了Benchmarking Models,set.seed,random.seed等的意义就出现了:为了进行基准测试而保持一致性。
选择适当的基准指标
使用AUC可能会导致不恰当的结果。参见文献AUC: a misleading measure of the predictive distribution models. Global Ecol Biogeogr
可选择PDF(不是我们认知里的PDF)。
Salzberg suggests that data scientists should use a binomial test to rate two different models against each other.
在本文中,我们探讨了许多有效地对模型进行基准测试的最佳实践:实验环境、数据管理、选择适当的度量标准,以及超越预测特征来观察模型在生产中如何使用。