1、AUC是什么?如何计算AUC?
AUC:随机取一个正样本和一个负样本,正样本的预测值大于负样本预测值的概率。
AUC计算的关键是找到所有正样本预测值大于负样本预测值的正负样本对。
首先,需要将样本按照预测值进行从小到大排序(最小score对应的sample的rank为1,第二小score对应sample的rank为2,以此类推);
其次,把所有的正类样本的rank相加,再减去两个正样本组合的情况。
2、AUC线上线下不一致怎么办
线上线下效果不一致,大概率是由线上线下预估环境不一致引起。 预估环境,一般涉及2个要素:模型和特征。
模型是否一致
主要包括校验离线模型格式转换、serving部署,线上模型加载、预估等接口是否有问题
特征是否一致
准确是指,线上线下喂给模型的特征是否一致。
与模型一致性检验一样,首先需要校验线上线下特征处理逻辑是否一致等;
其次,与线上真实预估环境相比,离线环境更容易获取到特征,当离线使用线上获取不到的特征时,就会造成离线效果虚高的假象。
严重点的,如特征穿越,即特征中包含标签信息,会造成训练和评估时数据泄露,导致离线评估时AUC虚