CTR模型中的频率矫正过程

最新推荐文章于 2023-02-07 19:41:05 发布

zc02051126

最新推荐文章于 2023-02-07 19:41:05 发布

阅读量5k

点赞数

分类专栏：统计机器学习算法理论文章标签：广告预测数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zc02051126/article/details/54379244

版权

统计机器学习算法理论专栏收录该内容

42 篇文章 5 订阅

订阅专栏

1 简介

在用不对称数据训练一个预测模型时，比如在训练广告的CTR模型时，训练数据就严重正负样本不对称，负样本可能是正样本的几百倍，对于这种问题，常用的做法是对负样本进行采样，将采样后的负样本和正样本一起作为训练数据。但是这样的训练数据训练出的模型预测概率会比实际的概念要打，以为对负样本采样导致训练数据的分布和原始数据的分布不一致了。所以在预测时要对模型预测出的概念进行矫正。下面介绍采样前后的概念关系。

2 推导过程

$n ：为正样本的个数$
$N ：为采样后的负样本的个数$
$r ：为采样频率$
${p}'：为采样后的预测概率$
$p ：为实际的预测概率$
采样后事件的几率表示为
$\frac{{p}'}{1-{p}'}=\frac{n}{N} ..... (1)$
原始数据的事件几率为：
$\frac{p}{1-p}=\frac{n}{\frac{N}{r}}$
所以有
$\frac{p}{(1-p)r}=\frac{n}{N} .....(2)$

由(1)，(2)及对数几率概念得：
$ln\frac{p}{(1-p)r}=ln\frac{{p}'}{(1-{p}')}=wx$

所以有

采样后训练数据训练出的模型预测的概念用如下公式

$p'=\frac{1}{1+e^{-wx}}$

原始数据的概率需要对训练数据训练出的模型做矫正，公式如下
$p=\frac{1}{1+e^{-(wx+ln(r))}}$

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。