机器学习初级篇10——对误差度量的理解
机器学习之对误差度量的理解
模型评估是对学习器泛化能力有效可行的实验估计方法。而性能度量是衡量模型泛化能力的评价标准。性能度量反应了任务需求,在对比不同模型能力时,使用不同的性能度量往往会导致不同的评估结果。模型的好坏不仅取决于算法和数据,还有任务需求。
构建一个学习算法的推荐方法为:
- 从一个简单的能快速实现的算法开始,实现该算法并用交叉验证集数据测试这个算
法 - 绘制学习曲线,决定是增加更多数据,或者添加更多特征,还是其他选择
- 进行误差分析:人工检查交叉验证集中我们算法中产生预测误差的实例,看看这些实例是否有某种系统化的趋势。
- 下面我们一起看下误差分析。
一.对几个概念的理解
1.:查准率(精确率)与查全率(召回率)与PR曲线
a.概念理解
我们将算法预测的结果分成四种情况:
- 正确肯定(True Positive,TP):预测为真,实际为真
- 正确否定(True Negative,TN):预测为假,实际为假
- 错误肯定(False Positive,FP):预测为真,实际为假
- 错误否定(False Negative,FN):预测为假,实际为真
则:查准率Precision=TP/(TP+FP)。例,在所有我们预