背景
最近跟阿力讨论了下兴趣探测的事情,启发了非常有意思的解决思路。在此简要整理下,没准以后扩展成统一的数学模型理论,还可以发篇小文章呢。
探测的关键问题和尝试思路
兴趣探测的核心问题
- 探测对象:对什么样的用户探测
- 探测资源:用什么资源探测
- 探测手段:如何探测和时机
现在梳理出来的思路有两个:
一) 是将探测作为分布的分布来建模。
二) 是将探测作为用户状态转移的中间action来建模。
希望能够找到个大一统的数学理论支持,将探测作为其中的一个子场景应用验证。
在第一种思路下,思考几个问题:
- 如何将Dirichlet分布衍生成现有的探测模型,或者是将现有探测模型抽象成Dirichlet分布【关系抽象==》具化外延】。
- 证明在不同探测数据选择方式下,模型收敛性情况;即指出哪些条件约束下,探测模型是有效的,哪些情况下,探测模型是失效的。
假设现有探测模型:f(x, var) = ctr。其中x是样本特征,var是波动参数[trainable]。期望学到某个用户的探测置信度var,表示该用户是多大程度上需要探测。突然想到,如果是f(x, tag, var)= ctr,这样是不是直接将某个tag的探测置信度var也表达了。这里的模型,有好多个更细节的东西,比如为什么用ctr作为目标,而不是点击;var学习时用到的采样方式;模型训练时类似EM方式或者GAN网络的训练方法等,后续再补充。
怎么抽象成为地雷克雷分布呢?
潜在问题
- 独立性假设条件的满足,不一定都能成立。
- 短期估计与长期估计收敛性是否一致。做N次探测和做无限探测,对未来总收益的影响评估。
背景知识梳理
概率的分布
关键词:n重伯努利试验 二项分布 beta分布 多项式分布 Dirichlet分布 共轭分布
n重伯努利实验:在相同条件下,重复地相互独立地进行n次随机实验,实验结果只有发生
A
A
A和不发生
A
‾
\overline{A}
A两种情况。
以
X
X
X表示其中发生
A
A
A的次数,
X
X
X是一个随机变量,描述其分布律如下,在
n
n
n次实验中
A
A
A发生
k
k
k次的概率为
P
(
X
=
k
)
=
C
n
k
p
k
(
1
−
p
)
n
−
k
P(X=k)=C_{n}^k p^k(1-p)^{n-k}
P(X=k)=Cnkpk(1−p)n−k,称随机变量
X
X
X服从参数为
(
n
,
p
)
(n,p)
(n,p)的二项分布,记为
X
∼
b
(
n
,
p
)
X \sim b(n,p)
X∼b(n,p)。
二项式定理:
(
p
+
q
)
n
=
C
n
0
p
n
q
0
+
C
n
1
p
n
−
1
q
1
+
.
.
.
+
C
n
k
p
k
q
n
−
k
+
.
.
.
+
C
n
n
p
0
q
n
=
∑
k
=
0
n
C
n
k
p
n
−
k
q
k
,
其
中
C
n
k
=
n
!
k
!
(
n
−
k
)
!
(p+q)^n=C_n^0 p^{n} q^0 + C_n^1 p^{n-1}q^1 + ... + C_n^k p^{k}q^{n-k}+ ... + C_n^np^0q^{n}=\sum_{k=0}^nC_{n}^kp^{n-k}q^k,其中C_n^k=\frac{n!}{k!(n-k)!}
(p+q)n=Cn0pnq0+Cn1pn−1q1+...+Cnkpkqn−k+...+Cnnp0qn=k=0∑nCnkpn−kqk,其中Cnk=k!(n−k)!n!
二项分布的期望
E
(
X
)
=
n
p
E(X)=np
E(X)=np,期望
D
(
X
)
=
n
p
(
1
−
p
)
D(X)=np(1-p)
D(X)=np(1−p)。对二项分布,总是随着
k
k
k的增加,概率
P
(
X
=
k
)
P(X=k)
P(X=k)呈现先增后降的特点。对
n
n
n趋向于无穷大时,二项分布变为正太分布【这个跟中心极限定理是一致的】。
(0~1)分布就是二项分布的n=1的特殊情况,
P
(
X
=
k
)
=
p
k
q
1
−
k
P(X=k)=p^kq^{1-k}
P(X=k)=pkq1−k
在二项分布里,概率
p
p
p是参数;而在Beta分布里,概率
p
p
p是随机变量;前者对发生事件的数量建模,后者对发生事件的概率建模。
B
e
t
a
(
α
,
β
)
Beta(\alpha, \beta)
Beta(α,β)分布是概率的概率分布
α
\alpha
α和
β
\beta
β是发生和不发生的数量,分别为不同值时,表示我们观察到的总体情况,这个时候我们认为不同比例背后,意味着发生概率也是不同的。比如棒球击中来猜测棒球手击中率的问题,多臂赌博机的最大收益问题。
来看下Beta分布,在不同
α
\alpha
α和
β
\beta
β下的事件发生的概率分布。
为什么我们执着于用Beta分布来描述概率的概率分布呢?用其他的分布也可以啊,因为Beta分布有很好的特性,在贝叶斯推理中,Beta分布与二项分布是共轭的。
发现没,如果共轭的话,后验概率分布
P
(
θ
∣
X
)
P(\theta|X)
P(θ∣X)可以跟先验概率分布
P
(
θ
)
=
B
e
t
a
(
α
,
β
)
P(\theta)=Beta(\alpha, \beta)
P(θ)=Beta(α,β)是一致的,在新增实验x个发生事件和n-x个非发生事件之后的后验概率分布
P
(
θ
∣
X
)
=
B
e
t
a
(
α
+
x
,
β
+
n
−
x
)
P(\theta|X)=Beta(\alpha +x, \beta +n-x)
P(θ∣X)=Beta(α+x,β+n−x)。多么漂亮的结果,压根不需要经过中间各种乱七八糟的计算了,直接可以根据先验概率计算后验概率。
补充:
gamma函数:
Γ
(
x
)
=
∫
0
∞
t
x
−
1
e
−
t
d
t
Γ(x)=∫_0^∞ t^{x−1}e^{−t}dt
Γ(x)=∫0∞tx−1e−tdt;beta函数:
B
(
x
,
y
)
=
∫
0
1
t
x
−
1
(
1
−
t
)
y
−
1
d
t
B(x,y)=∫_0^1t^{x−1}(1−t)^{y−1}dt
B(x,y)=∫01tx−1(1−t)y−1dt
beta分布:
B
e
t
a
(
α
,
β
)
=
Γ
(
α
)
Γ
(
β
)
Γ
(
α
+
β
)
Beta(\alpha, \beta)=\frac{Γ(\alpha)Γ(\beta)}{Γ(\alpha+\beta)}
Beta(α,β)=Γ(α+β)Γ(α)Γ(β)
beta分布的概率密度函数:
B
e
t
a
(
x
,
α
,
β
)
=
1
B
(
α
,
β
)
x
α
−
1
(
1
−
x
)
β
−
1
Beta(x, \alpha, \beta)= \frac{1}{B(α,β)} x^{α−1} (1−x)^{β−1}
Beta(x,α,β)=B(α,β)1xα−1(1−x)β−1
多项式分布,是二项分布的推广,事件有多种结果。把投硬币换成投骰子。
Dirichlet分布,是多项式分布的共轭分布;他们的关系可以类别 beta分布之于二项分布。
布参数估计
ML估计,MAP,贝叶斯估计,其他估计方法
本文到底讲了些啥呢?反正没有解决本文前面提出的三个核心问题。哈哈,纯属讨论 探测的方式方向。
在第一种思路下,可以使用多臂赌博机来做探测,就是Dirichlet分布,但是这种方式仅限于情况有限且只能够利用已有点击的信息,对展示是无感知的。如果是用f(x, target, var)的思路来处理,则会有效借助总体或者群体特征,在个人探测时,同时对展现也有较好地敏感性。
在第二种思路下,暂时还没尝试。
notice: 这两种方式都是在pair下的探测,并没有借助整屏信息,存在着整体规划的缺陷,另外的DPP会有更优地整体性。
Reference
参考:PRML-章节
参考:概率论与数理统计
参考:https://mp.weixin.qq.com/s/HxKZgFFxD6oLJigrd8scAw
参考:https://towardsdatascience.com/beta-distribution-intuition-examples-and-derivation-cf00f4db57af
参考:https://bookdown.org/probability/beta/beta-and-gamma.html#beta