离散随机变量
假设随机变量
X
X
X的取值域为
Ω
=
{
x
i
}
i
=
1
∞
\Omega=\{x_i\}{^\infty_{i=1}}
Ω={xi}i=1∞, 那么对于任何一个
x
i
x_i
xi, 事件
X
=
x
i
X=x_i
X=xi的概率记为
P
(
x
i
)
P(x_i)
P(xi).
对于
Ω
\Omega
Ω的任何一个子集
S
=
{
x
k
i
}
i
=
1
∞
S=\{x_{k_i}\}{^\infty_{i=1}}
S={xki}i=1∞, 事件
X
∈
S
X\in S
X∈S的概率为
P
(
S
)
=
∑
i
=
1
∞
P
(
x
i
)
P(S) = \sum{^\infty_{i=1}}P(x_i)
P(S)=∑i=1∞P(xi)
对于离散随机变量, 概率为概率函数的求和.
连续随机变量
假设随机变量
X
X
X的取值域为
R
R
R, 那么对于几乎所有
x
∈
R
x\in \mathbb{R}
x∈R, 事件
X
=
x
X=x
X=x的概率
P
(
X
=
x
)
P(X=x)
P(X=x)都等于0, 所以我们转而定义概率密度函数
f
:
R
→
[
0
,
∞
)
f:\mathbb{R}\rightarrow[0,\infty)
f:R→[0,∞). 对于任何区间
(
a
,
b
)
(a, b)
(a,b), 事件
X
∈
(
a
,
b
)
X\in (a, b)
X∈(a,b)的概率为
P
(
(
a
,
b
)
)
=
∫
a
b
f
(
x
)
d
x
P((a,b))=\int{^b_a}f(x)dx
P((a,b))=∫abf(x)dx
- 对于连续型随机变量, 概率为概率密度函数的积分.
- 不论是离散还是连续型随机变量, 概率函数和概率密度函数的定义域即为这个随机变量的值域.
- 作为一个特殊的概率函数, 分布函数定义为
Φ ( x ) = P ( X < x ) \Phi(x)=P(X<x) Φ(x)=P(X<x)
事件概率
- 整个概率空间是一个事件, 这个事件一定发生所以全空间的概率为1
- 事件是随机变量值域的子集 S S S
- 事件的概率则表示 S S S里面概率之和或概率密度之积分
事件的条件概率
- 条件也是事件, 也可表示为随机变量值域的子集: A A A
- 条件概率里面的事件, 又是这个条件的子集: S ∩ A ⊂ A S\cap A\subset A S∩A⊂A
- 事件的条件概率则表示 S ∩ A S\cap A S∩A在 A A A里面所占的比例, 故而 P ( S ∣ A ) = P ( S ∩ A ) P ( A ) P(S|A)=\frac{P(S\cap A)}{P(A)} P(S∣A)=P(A)P(S∩A)
概率其实就是集合的大小比例, 而概率函数或者概率密度函数可以理解为比较大小时候的权重
贝叶斯公式
如果
A
,
B
A,B
A,B是两个事件, 那么条件概率满足公式
P
(
A
∣
B
)
=
P
(
B
∣
A
)
P
(
A
)
P
(
B
)
P(A|B)=\frac{P(B|A)P(A)}{P(B)}
P(A∣B)=P(B)P(B∣A)P(A)
利用前面的定义我们知道, 事件
A
,
B
A,B
A,B同时发生的概率为
P
(
A
∩
B
)
P(A\cap B)
P(A∩B), 一方面
P
(
A
∩
B
)
=
P
(
B
∣
A
)
P
(
A
)
P(A\cap B)=P(B|A)P(A)
P(A∩B)=P(B∣A)P(A)
另一方面对称的有
P
(
A
∩
B
)
=
P
(
A
∣
B
)
P
(
B
)
P(A\cap B)=P(A|B)P(B)
P(A∩B)=P(A∣B)P(B)
所以
P
(
B
∣
A
)
P
(
A
)
=
P
(
A
∣
B
)
P
(
B
)
P(B|A)P(A)=P(A|B)P(B)
P(B∣A)P(A)=P(A∣B)P(B), 两边同时除以
P
(
B
)
P(B)
P(B)就得到了贝叶斯公式
概率分布
常见的概率分布基本上都有参数, 比如正太分布有 ( μ , σ ) (\mu, \sigma) (μ,σ)两个参数, 泊松分布有一个参数 λ \lambda λ, 对于一个具体的问题而言, 关于这些参数有两种不同的看法
- 利用经验得到一个关于参数的先验分布 (Bayesian)
- 不对参数先验分布做任何假设, 只利用当前观测的数据来对参数进行估计 (Frequentist)
先验分布, 似然函数, 后验分布
- 参数先验分布为 p ( θ ) p(\theta) p(θ)
- 似然函数为 p ( x ∣ θ ) p(x|\theta) p(x∣θ)
- 观测值为
X
X
X
贝叶斯的思想是根据观测值来调整参数的先验分布从而得到参数的后验分布, 参数后验分布为
P ( θ ∣ X ) = P ( X ∣ θ ) P ( θ ) ∫ θ ′ P ( X ∣ θ ′ ) p ( θ ′ ) d θ ′ P(\theta|X)=\frac{P(X|\theta)P(\theta)}{\int_{\theta^\prime}P(X|\theta^\prime)p(\theta^\prime)d\theta^\prime} P(θ∣X)=∫θ′P(X∣θ′)p(θ′)dθ′P(X∣θ)P(θ)
共轭分布
如果参数的后验分布与先验分布属于同一类分布, 那么我们说这种先验分布为共轭分布 (Conjugate prior), 比如
- 似然函数为正太分布时, 如果 σ \sigma σ已知, 关于 μ \mu μ的正太分布是共轭分布
- 似然函数为正太分布时, 如果 μ \mu μ已知, 关于 σ \sigma σ的反Gamma分布是共轭分布
具体共轭分布列表可以参考 https://en.wikipedia.org/wiki/Conjugate_prior
共轭分布的好处在于, 先验与后验分布属于一个大类, 这样计算和理解上都比较方便