在分析数据时,我们常常需要做一些预测,例如根据用户的商品购买数据,预测该用户是否对某个产品感兴趣;根据信用卡申请人的消费行为数据,预测该用户的还款行为是否可能进行逾期等等。
但有时候我们会发现,原始的数据集中要预测的Y变量,两类的数量差距非常大,比如,对某产品感兴趣的用户数远小于不感兴趣的用户数,有逾期记录的用户数远小于没有逾期记录的用户数。类似这样的数据,被称为非均衡数据,如果直接用传统的预测方法可能造成预测效果的不理想,那么对于这样的非均衡数据的预测问题,有什么样的好办法呢?
莫慌!JMP可以完美解决此类问题。
今天我们就来探讨下非均衡数据的精准预测。
01 非均衡数据问题有哪些特征?
通常来说,非均衡数据往往具备以下一些特征。
响应变量Y仅有2个水平。其中一个水平的数量>>另一个水平的数量;数量多的水平成为多数水平,数量少的水平称为少数水平。
少数水平通常是们感兴趣的水平。例如欺诈、疾病、信用风险的检测。
我们希望基于自变量来预测所属类别。
我们需要建立预测模型,计算每一个样本属于少数水平的概率p.
我们选择一个阈值来优化各种标准,如误分类率、真阳性率、假阳性率、准确率、召回率等。
我们将其预测的概率p(或得分)超过阈值的观察结果分类为少数类。
02 如何建立分类模型?
通常情况下,一些传统的分类精度指标往往不适用于不平衡数据。
例如,考虑少数水平数占2%的情况。你可以简单地将所有的观测划分为多数水平所在的类别,便可以达到98%的准确率。
精度-召回率(PR)曲线常用于不平衡数