多分类问题的混淆矩阵

最新推荐文章于 2024-06-07 17:39:41 发布

菜的哇哇大哭

最新推荐文章于 2024-06-07 17:39:41 发布

阅读量2.6k

点赞数 5

分类专栏：笔记文章标签：机器学习算法 python

本文链接：https://blog.csdn.net/weixin_44677208/article/details/120773401

版权

笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

混淆矩阵、查准率P和召回率R

参加夏令营时候遇到过混淆矩阵、查准率和召回率的计算方法的问题，今天看书又回顾到这个概念，个人觉得对这个概念还是需要有非常清醒的认识的，做个记录。

二分类的混淆矩阵

假设正例为我有病，那反例就是我没病。
TP就是，我有病，判断有病。
FN就是，我有病，但是没判断出来，觉得我没病。
FP是，我没病，但是判断我有病。
TN是，我没病，判断的也是我没病，判断的是正确的。

真实情况\预测结果	正例	反例
正例	TP	FN
反例	FP	TN

查准率P和召回率R

$P=\frac{TP}{TP+FP}$ $R=\frac{TP}{TP+FN}$
这样说来，P就是我有病且判断对了，这在判断的结果都是有病的概率，那么1-P叫虚惊一场。
但是R就是，我有病且判断对了，占，实际情况我就是有病，的概率，那么1-R就是我有病但没看出来，耽误事了，这个值当然要越小越好，这种情况下R大是好事。这个知识点在机器翻译课上老师也强调过。

那么比如推荐系统中P高是目标，这样可以给用户提供更多有趣的信息；查找罪犯判断疾病中R高是目标，保证准确性，召回率很重要。

查准率P和召回率R是一组矛盾的度量。一般来说，查准率高时，召回率就会偏低，反之亦然。

12月1日补充：一个很棒的知乎例子
在这里插入图片描述

综合考量： $F_{1}$

$F_{1}=\frac{2·P·R}{P+R}=\frac{2·TP}{m+TP-TN}$
整理得
$F_{1}=\frac{2}{\frac{1}{P}+\frac{1}{R}}$
度量可以看成是P和R的调和平均数，将 $F_{1}$ 度量推广到一般形式 $F_{\beta}$ ，能度量出P和R之间的不同偏好。
$F_{{\beta}}=\frac{(1+\beta^2)·P·R}{\beta^2·P+R}$
${\beta}$ ( ${\beta}$ >0)能衡量P和R之间的相对重要程度，整理公式得
$F_{{\beta}}=\frac{1+\beta^2}{\frac{\beta^2}{R}+\frac{1}{P}}$
$F_{\beta}$ 可以看成是P和R的加权调和平均， ${\beta}$ =1， $F_{\beta}$ 退化成标准的 $F_{1}$ ，即P和R同等重要； ${\beta}$ >1时，R有更大影响； ${\beta}$ <1时，P有更大影响。

多分类问题的混淆矩阵

处理实际问题中，往往是多分类的，多分类的P、R、 $F_{1}$ 、 $F_{\beta}$ 的计算方法要进行扩展。

真实情况\预测结果	1	2	3
1	$a_{1}$	$a_{2}$	$a_{3}$
2	$b_{1}$	$b_{2}$	$b_{3}$
3	$c_{1}$	$c_{2}$	$c_{3}$

给出分类为1的查准率和召回率的计算公式，对于分类为1的情况，
$TP_{1}=a_{1}$ $FN_{1}=a_{2}+a_{3}$ $FP_{1}=b_{1}+c_{1}$ $TN_{1}=b_{2}+b_{3}+c_{2}+c_{3}$
此时，分类为1的查准率 $P_{1}$ 和召回率 $R_{1}$ 如下，
$P_{1}=\frac{TP_{1}}{TP_{1}+FP_{1}}=\frac{a_{1}}{a_{1}+b_{1}+c_{1}}$ $R_{1}=\frac{TP_{1}}{TP_{1}+FN_{1}}=\frac{a_{1}}{a_{1}+a_{2}+a_{3}}$

那么对分类2应该如何计算呢？练习一下，对于分类2的情况：
$TP_{2}=b_{2}$ $FN_{2}=b_{1}+b_{3}$ $FP_{2}=a_{2}+c_{2}$ $TN_{2}=a_{1}+a_{3}+c_{1}+c_{3}$
此时，分类为1的查准率 $P_{2}$ 和召回率 $R_{2}$ 如下，
$P_{2}=\frac{TP_{2}}{TP_{2}+FP_{2}}=\frac{b_{2}}{a_{2}+b_{2}+c_{2}}$ $R_{2}=\frac{TP_{2}}{TP_{2}+FN_{2}}=\frac{b_{2}}{b_{1}+b_{2}+b_{3}}$
简记为，分子一直是预测对了的那个，分母P：竖着。R：横着。
$macroP=\frac{1}{m}\sum_{i=0}^mP_{i}$ $macroR=\frac{1}{m}\sum_{i=0}^mR_{i}$ $macroF_{1}=\frac{2·macroP·macroR}{macroP+macroR}$

另一种算法就是，首先获得每个分类对应二分类混淆矩阵的 $TP_{1}$ 、 $FN_{1}$ 、 $FP_{1}$ 、 $TN_{1}$ ，然后求他们的平均值，扔进上面macro公式中。

MSRA实习生，同济的子豪兄，讲的很不错～十五秒钟就能听完这个知识点～

就先写这么多啦，在这个概念上反反复复已经花了很多时间了！

2021.11.6更，看paper看糊涂了，看了半天居然没区分EM和CM。。
Evaluation metric：评价指标
Confusion Matrix：混淆矩阵

菜的哇哇大哭

关注

5
点赞
踩
27

收藏

觉得还不错? 一键收藏
0
评论
多分类问题的混淆矩阵

混淆矩阵、查准率和召回率夏令营时候遇到过混淆矩阵、查准率和召回率的问题，今天看书又回顾到这个问题，个人觉得对这个概念还是需要有非常清醒的认识的，做个记录。混淆矩阵假设正例为我有病，那反例就是我没病。TP就是，我有病，判断有病。FN就是，我有病，但是没判断出来，觉得我没病。FP是，我没病，但是判断我有病。TN是，我没病，判断的也是我没病，判断的是正确的。真实情况\预测结果正例反例正例TPFN反例FPTN查准率P和召回率RP=TPTP+FPP=\fra
复制链接

扫一扫