“计算广告学”中重要的一个子集——转化率预估(Conversion Modeling)广告行业内常见的商业模式有四种(图1):1) CPM(xost per mille),按每千次展现付费;2)CPC,按点击付费cost per click;3)CPA,按转化付费;4)CPS,按销售分成。容易理解,广告主最欢迎CPA模式,因为这种模式的广告投放效率最高,广告主不必为无效的展现和点击买单。然而,业内做CPA的广告网络(Ad Network)并不多,主要原因是转化数据难以收集。我们可以获取到电商类广告和应用类广告的转化数据。以数据为基础,再结合大规模机器学习算法,我们就可以实现广告转化率的实时预估(其实就是计算这个PV会进行有效操作的概率)—这对于CPA模式的广告匹配是很重要的,因为它是广告排序和计费的基础。广告平台会按期望收益对广告进行排序,而广告的期望收益等于广告主出价(Bid)和广告
点击率(Click-Through-Rate, CTR)预估点击率 (predict CTR, pCTR) 是指对某个广告将要在某个情形下展现前, 系统预估其可能的点击概率
一般需要大规模机器学习技术了,抽取相应的特征,进行转化率的估计,一般采用LR,这里首先介绍LR的众多评价标准,之后介绍其解法和特征项的选择问题。
评估模型效果的方法有很多,如:
1. AUC,从排序的角度评估模型预估效果;2. MAE(Mean Absolute Error)/MSE(Mean Squared Error),从准确率的角度评估模型预估效果;
3. Loss,从拟合训练数据的角度评估模型预估效果;
在工程中使用A/Btest,随机选取两部分线上同质流量,一部分用基准模型A预估转化率,一部分用实验模型B预估转化率。如果后者对在线业务指标(如转化率、点击率、千次展现收益等)有正向效果,我们就认为是好模型。
ROC
http://alexkong.net/2013/06/introduction-to-auc-and-roc/
对于分类器,或者说分类算法,评价指标主要有precision,recall,F-score
正如我们在这个ROC曲线的示例图中看到的那样,ROC曲线的横坐标为false positive rate(FPR),纵坐标为true positive rate(TPR)。
P(测试出来的正样本) N(测试出来的负样本)
Y TP(true positive) FP(false positive)
N FN(false negative) TN(true negative)
正确率 = 测试出来准确的正样本/所有的正样本 : TP/(TP+FP)
召回率 = 测试出来正确的正样本/测试出来的正本 TP/(FP+FN)
FPR = 将正样本测试成为了负样本/所有测试成为的负样本 FP/(FP+TN) 错误率
TPR = 测试正确的正样本/所有测试成为的正样本 TP/(TP+FN) 正样本测试的正确率
接下来我们考虑ROC曲线图中的四个点和一条线。第一个点,(0,1)