机器学习03-模型评估

最新推荐文章于 2022-09-03 20:27:45 发布

twilight_cc

最新推荐文章于 2022-09-03 20:27:45 发布

阅读量230

点赞数

分类专栏：机器学习文章标签：模型评估

本文链接：https://blog.csdn.net/weixin_43841579/article/details/102365994

版权

机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

模型评估

分类模型
回归模型

分类模型

混淆矩阵

真实值是Positive,模型认为是Positive的数量（True Positive=TP）
真实值是Positive,模型认为是Negative的数量（False Negative=FN），统计学上的第一类错误（Type I Error）
真实值是Negative,模型认为是Positive的数量（False Positive=FP），统计学上的第二类错误（Type II Error）
真实值是Negative,模型认为是Negative的数量（True Negative=TN）

评估指标

在这里插入图片描述

ROC曲线

ROC曲线：为不同阈值(从大到小排序)下Sensitivity和（1-Specificity）的轨迹。
横坐标：1-Specificity (FPR)
纵坐标：Sensitivity (TPR)
AUC：ROC曲线下的面积，AUC越接近1，模型的预测效果越好。
在这里插入图片描述

KS曲线

KS曲线横坐标为概率阈值或depth，纵坐标为TPR和FPR值，KS=max(TPR-FPR)，对应最优的划分阈值

Lift与Gain图

$lift=\frac{TP/(TP+FP)}{(TP+FN)/(TP+FN+FP+TN)}$

该指标衡量的是：与不利用模型相比，模型的预测能力变好了多少。
不利用模型，我们只能利用正例的比例是（TP+FN）/(TP+FN+FP+TN)来估计正例的比例；利用模型之后，只需要从预测为正例的那个样本的子集中挑选正例。

$gain=\frac{TP}{(TP+FP)}$

横坐标：正例集百分比（随阈值变化）
纵坐标：lift或gain值（随阈值变化）

在这里插入图片描述
lift与gain详细介绍参考

回归模型

spark的回归模型指标计算过程

import org.apache.spark.mllib.stat.{MultivariateStatisticalSummary, Statistics}
val summary: MultivariateStatisticalSummary = Statistics.colStats(observations)

在这里插入图片描述
L1范数：向量各个元素绝对值之和;
L2范数：向量各个元素的平方求和然后求平方根.

MAE(Mean Absolute Error)
平均绝对误差：summary.normL1(1) / summary.count
MSE(Mean Square Error)
平均平方差：SSerr / summary.count
SSerr = math.pow(summary.normL2(1), 2)
RMSE(Root Mean Square Error)
方均根差：math.sqrt(MSE)