AUC 衡量模型对所有样本间的排序能力,没有考虑到群体的差异性
GAUC 衡量模型对不同group (user, search_query) 的排序能力
例子参考: https://blog.csdn.net/hnu2012/article/details/87892368
假如有两个用户,分别是甲和乙,一共有5个样本,其中+表示正样本,-表示负样本,我们把5个样本按照模型A预测的score从小到大排序,得到 甲-,甲+,乙-,甲+,乙+. 那么实际的auc应该是 (1+2+2)/(3*2)=0.833, 那假如有另一个模型B,把这5个样本根据score从小到大排序后,得到 甲-,甲+,甲+,乙-,乙+, 那么该模型预测的auc是(1+1+2)/(3*2)=0.667.
此处计算AUC的方法可以参考: 推荐系统评价指标:AUC和GAUC - 简书
三个正样本, 两个负样本。所以分母是 2*3
按照预测的score进行排序后,第一个甲+ 左边有 一个负样本, 第二个甲+左边有两个负样本, 第三个正样本 乙+ 左边有两个负样本, 所以分子是 1+2+2
论文 Optimized Cost per Click in Taobao Display Advertising 中的表述与公式:
First, we aggregate all test data ac- cording to the user (u) and the particular position (p) of ad spot. Then, the AUC results are calculated in each single group (note that if there are all positive or negative samples in a group, we re- move the group from the data). At last, we average these weighted AUC (weight w(u,p) is proportional to impression times or click times in the group) results in different groups and take the result as the GAUC value.
论文:
Han Zhu, Junqi Jin et all, “Optimized Cost per Click in Taobao Display Advertising,” In Proceedings of the 23th ACM SIGKDD international conference on Knowledge discovery and data mining(KDD). pp 2191-2200, 2017
参考文章: