评估指标(Evaluation Metrics)
选择合适的指标
在构建机器学习模型的时候,首先要选择性能指标,然后测试模型的表现如何。
相关的指标有多个,具体取决于我们要解决的问题。
在可以选择性能指标之前,首先要认识到机器学习研究的是如何学习根据数据进行预测。
在测试模型时,也务必要将数据集分解为训练数据和测试数据。
如果不区分训练数据集和测试数据集,则在评估模型时会遇到问题,因为它已经看到了所有数据。
我们需要的是独立的数据集,以确认模型可以很好地泛化,而不只是泛化到训练样本。
分类 | 回归 | |
涉及对象 | 根据未见过的样本进行预测,并确定新实例属于哪个类别。 | 根据连续数据进行预测 |
例子 | 根据蓝色或红色或者方形或圆形来组织对象,以便在看到新对象时根据其特征来组织对象 | 包含不同人员的身高、年龄和性别的列表,并想预测他们的体重 |
分类指标 | 回归指标 |
了解模型隔多久正确或不正确地识别新样本一次 | 了解模型的预测值与实际值之间差多少 |
处理对象:根据离散数据进行预测的模型 | 处理对象:根据连续数据进行预测的模型 |
此类模型确定新实例是否属于给定的一组类别 | 此类模型关注的是预测的接近度 |
指标用于测量预测是否准确地将所讨论的实例进行分类 | 指标用于关心模型如何能始终进行接近的预测 |
分类指标:混淆矩阵,准确率与召回率,F1分数。
回归指标:误差指标:平均绝对误差,均方差;
分数指标:R2分数(回归学习器默认的分数方法)、可释方差分数。
分数越高越好,0表示坏,1表示好。