PRML学习笔记-《Probability Distribution》

最新推荐文章于 2021-05-23 15:24:24 发布

yj_isee

最新推荐文章于 2021-05-23 15:24:24 发布

阅读量557

点赞数

分类专栏： Machine Learning 模式识别与机器学习研究

本文链接：https://blog.csdn.net/yaoqi_isee/article/details/78991841

版权

模式识别与机器学习研究同时被 2 个专栏收录

4 篇文章 3 订阅

订阅专栏

Machine Learning

3 篇文章 0 订阅

订阅专栏

Probability Distribution

0.introduction

1.density estimation:给定随机变量 $x$ 的一些观察值 $\{x_1, x_2, ... , x_N\}$ ，估计变量 $x$ 的概率分布 $p(x)$ 。在这一章当中，我们假设所有的观测值满足独立同分布iid

2.对于density estimation问题，常见的频率学派的做法是MLE（极大似然估计），例如，假设数据的分布服从高斯分布，对高斯分布的参数进行最优化使得观测点出现的概率最大；常见的贝叶斯学派的做法是MAP（最大后验概率估计），例如，假设参数服从高斯分布，然后使用贝叶斯定理计算在已知观测数据点的情况下参数的后验概率。

3.density estimation分为parametric method和nonparametric method。The former assumes a specific functional form of the distribution governed by parameters，while in the latter method, the distribution depends on the size of the dataset.

1.Binary variables

1.Bernouli（伯努利）分布：也叫0-1分布，假设 $p(x=1) = \mu$ ，伯努利分布的概率分布函数为：

B e r n (x | μ) = μ x (1 - μ) (1 - x)

$Bern(x|\mu) = \mu^x (1-\mu)^{(1-x)}$
伯努利分布的期望和方差为：

E [x] = 0 * (1 - μ) + 1 * μ = μ

$E[x] = 0*(1-\mu) + 1*\mu = \mu$

v a r [x] = (0 - μ) 2 * (1 - μ) + (1 - μ) * μ 2 = μ (1 - μ)

$var[x] = (0-\mu)^2 * (1-\mu) + (1-\mu) * \mu^2 = \mu(1-\mu)$
假设我们的观测数据集为

D={x1,...,xN|xi∈{0,1}} $D=\{x_1, ..., x_N|x_i \in \{0, 1\}\}$ ，如果我们假设观测数据服从伯努利分布，则我们可以通过极大似然估计得到最优的参数

μ $\mu$ ，所有数据点出现的概率为
|center | 400x0

通常我们会最大化log似然函数，如下所示：
|center | 500x0

上式对参数

μ $\mu$ 求导，得到是观测点出现概率最大的参数

μ $\mu$ 满足

μ M L = 1 N \sum n = 1 N x n

$\mu_{ML} = \frac{1}{N} \sum_{n=1}^{N}x_n$
也就是说，极大似然估计得到的参数

μ $\mu$ （二项分布中x=1的概率）即为1在数据集中出现的频率。

考虑一种特殊的情况，假设我们抛掷了三次硬币，每次都是正面朝上的，那么使用极大似然估计得到的参数 $\mu=1$ ，也就是说，得到的模型会估计接下来的每一次硬币抛掷的结果都是正面朝上的，这即是一种典型的过拟合的现象（在第一章里面，我们也说到了极大似然估计就相当于简单的最小二乘方法，当方程数目（观测的数目）不够的时候，很容易出现过拟合）。接下来我们会讲通过提供一个关于 $\mu$ 的先验能够得到更加合理的估计。

2.binomial（二项式）分布：二项分布是在0-1分布上的拓展，假设我们抛掷N次硬币，每次抛掷出现正面朝上（x=1）的概率为 $\mu$ ，一共抛掷了 $N$ 次，则正面朝上（x=1）出现m次的概率为：

B i n (m | N, μ) = C m N μ m (1 - μ) N - m

$Bin(m|N, \mu) = C_N^m \mu^m (1-\mu)^{N-m}$
因为

m=x1+x2+...+xN $m=x_1 + x_2 + ... + x_N$ ，因此上述二项分布的期望和方差为：

E [m] = N μ

$E[m] = N\mu$

v a r [m] = N μ (1 - μ)

$var[m] = N\mu (1-\mu)$

3.beta分布：前面讲到了使用极大似然估计，当观测的数据集比较小的时候，容易出现过拟合的问题。我们现在尝试使用贝叶斯估计的方法进行缓解。针对前面提到的抛硬币问题，我们需要定义被估计的参数 $\mu$ 的先验分布，然后根据观测数据，求出参数 $\mu$ 的后验分布。通常我们会使用 $conjugate \ prior$ ，即先验分布和似然函数的形式一样，这样的话后验分布就和先验分布形式保持一致。观察前面似然函数的形式，我们这里提到的先验分布即为 $beta$ 分布：