仅靠猜测,模型的准确率就能到 99%,这太匪夷所思!

个人原创,一字一字敲的。

判断一个分类模型好坏的标准至关重要,问题是采用何种判断方法。本文浅谈一下模型评估方法的重要性,希望对初学者有一定帮助。

准确率

表面上看这是一个简单的问题,如果分类的准确率越高,就断言分类模型越好。

据此评价方法,对于二分类问题,评价分类算法准确率的计算公式为:

其中,P 全称 Positive; N 全称 Negative; T 全称 True, 表示预测正确;F 全称 False, 表示预测错误。

如果正负样本个数较为均衡,使用以上评价公式是没有问题的。

实际中,我们要分类的问题大都满足正负样本个数均衡吗?

如果一下能举出很多反例,大概率就可以说正负样本不均衡的情况还是很多。银行卡信贷欺诈判断、交通违规判断、考试作弊判断、垃圾邮件检测、涉黄电影判断、恶性肿瘤检测...

并且下意识告诉我们,这些分类任务的数据集中正负样本个数往往是不均衡的,欺诈的交易总归占据少数,交通违规、考试作弊大概率也如此...

如果正负样本个数比例真是这样不均衡,使用以上公式评价问题就出现了。比如 100 个肿瘤检测报告中,只有 1 个是正类别(确定为肿瘤),对于这类数据集,我们只要写一行代码,预测所有都为负类别(即确定不是肿瘤),则:

你看,我们什么都没做,仅靠投机取巧,模型预测的准确率就达到 99%,这太匪夷所思!

精确率+召回率

显然,仅仅使用准确率评价模型好坏,失败了。原因在于正负样本个数的不均衡,导致评价出现问题。

所以,需要设计出更加科学健全的评价指标。于是就有了 精确率+召回率的评价体系。

其中,精确率 的计算公式为:

公式意义:被预测为正类别的样本中,确实为正类别的比率。

召回率 的计算公式为:

公式意义:在所有正类别样本中,能够正确的识别为正类别的比率。

按照此评价体系,如果还是纯碎靠猜测,即预测 100 个肿瘤全为负类别,则:

这种极端情况,我们没有预测出正样本,所以精确率公式失去意义。下面考察召回率:

等于 0,所以判定纯碎靠猜是不可取的,所以精确率+召回率的评价体系更优于仅凭准确率的方法。


希望此篇文章能帮助大家通俗易懂的理解三个概念:准确率精确率召回率,以及各自存在的价值。

如果对你有帮助,欢迎点在看。

原创不易,点个在看

第一个问题: 假设这个人手上有 $k$ 个 A,那么有 $k$ 种可能性,即他手上有 1 个 A、2 个 A、3 个 A 或 4 个 A。 根据条件概率的公式,有: $$P(\text{手上有不止一个 A} \mid \text{手上有一个 A}) = \dfrac{P(\text{手上有不止一个 A} \cap \text{手上有一个 A})}{P(\text{手上有一个 A})}$$ 其中,$P(\text{手上有一个 A})$ 是已知的,等于 $\dfrac{4}{52} = \dfrac{1}{13}$。 接下来,我们需要计算 $P(\text{手上有不止一个 A} \cap \text{手上有一个 A})$,即这个人手上有不止一个 A 且手上有一个 A 的概率。 如果他手上有 1 个 A,那么手上不可能有不止一个 A,所以这种情况下的概率为 0。 如果他手上有 2 个 A,那么他手上不止一个 A 的概率为 1。 如果他手上有 3 个 A,那么他手上不止一个 A 的概率为 1。 如果他手上有 4 个 A,那么他手上不止一个 A 的概率为 1。 因此,有: $$P(\text{手上有不止一个 A} \mid \text{手上有一个 A}) = \dfrac{1+1+1+1}{\dfrac{1}{13}} = \boxed{13}$$ 第二个问题: 同样地,假设这个人手上有 $k$ 个 A,那么有 $k$ 种可能性,即他手上有 1 个 A、2 个 A、3 个 A 或 4 个 A。 根据条件概率的公式,有: $$P(\text{手上有不止一个 A} \mid \text{手上有一个黑桃 A}) = \dfrac{P(\text{手上有不止一个 A} \cap \text{手上有一个黑桃 A})}{P(\text{手上有一个黑桃 A})}$$ 其中,$P(\text{手上有一个黑桃 A})$ 是已知的,等于 $\dfrac{1}{13}$。 接下来,我们需要计算 $P(\text{手上有不止一个 A} \cap \text{手上有一个黑桃 A})$,即这个人手上有不止一个 A 且手上有一个黑桃 A 的概率。 如果他手上有 1 个 A,那么手上不可能有不止一个 A,所以这种情况下的概率为 0。 如果他手上有 2 个 A,那么他手上有一个黑桃 A 的概率为 $\dfrac{1}{2}$,而且手上不止一个 A 的概率也为 1,因为他手上只有两张牌,另一张牌必然是 A。 如果他手上有 3 个 A,那么他手上有一个黑桃 A 的概率为 $\dfrac{3}{4}$,而且手上不止一个 A 的概率也为 1,因为他手上只有三张牌,另外两张牌必然是 A。 如果他手上有 4 个 A,那么他手上有一个黑桃 A 的概率为 1,而且手上不止一个 A 的概率也为 1。 因此,有: $$P(\text{手上有不止一个 A} \mid \text{手上有一个黑桃 A}) = \dfrac{\dfrac{1}{2}\times 1 + \dfrac{3}{4}\times 1 + 1\times 1}{\dfrac{1}{13}} = \boxed{\dfrac{52}{13}}$$ 答案中,分子为 52 是因为这个人手上有 4 个 A,其中有一个是黑桃 A,所以在计算概率时,我们把这种情况的概率算了 4 次。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值