单一数值评价指标
两个评价指标
为你的项目准备一个简单的实数指标作为评价指标,以便知道调节某个设置是否有助于算法的改进。在测试多个场景时,该指标能够帮助你快速选择最有效的算法。有时,你可能需要两个指标来评估算法,比如查准率(Precision)和召回率(Recall)。但是如果有两个指标,就很难选出哪个算法更好。
将评价指标合二为一!因此,与其使用两个指标(查准率和召回率)选出一个分类器,不如找一个能将两者结合起来的新评估指标。在机器学习文献中,结合查准率和召回率的标准方法是 F1 分数(F1 score)。实际上,你几乎不需要自己设计新的性能评估指标,因为根据你的系统要求,通常能在机器学习文献中找到一个合适的指标。
满意度量和优化度量
在某些情况下,不是只有一两个指标,而是 n 个。假设需要你创建一个最高准确率的分类器,且有着最低的时间复杂度和空间复杂度。然后你创建了以下 4 种 分类器,你会选择其中的哪种呢?
在这种情况下,你可以选择一个度量作为优化度量(optimizing),其他 n-1 个作为满意度量(satisficing)。在这个例子中,我们可以最大化测试准确率(optimizing),也就是将其作为优化度量;同时保证运行时间(Runtime)少于 10 秒,内存(Memory)要求小于 10MB,也就是将这两者作为满意度量,达到阈值即可。这样,你就为团队设立了一个目标。