在机器学习领域有一些常用的概率分布需要我们熟悉,下面我们对这些分布做一下总结。
1. 伯努利分布以和二项分布
考虑随机变量,对应抛一枚硬币(不一定均匀),当硬币正面朝上取1, 反面朝上取0。如果 x = 1 的概率记为 ,则,很明显 ,所以概率分布可以表示为:
我们把这种分布称为伯努利分布。易证,伯努利分布的均值和方差分布为,。伯努利分布属于指数族分布。
如果我们抛 N 次硬币,将正面朝上的次数 m 作为随机变量,那分布是什么样的呢?我们把该类分布称为二项分布,其过程即把伯努利分布重复 N 次,x = 1 发生的次数为m,由此,我们容易得出概率分布:
易证,二项分布的均值和方差分别为 ,。二项分布属于指数族分布。
2. Beta分布
二项分布属于指数族分布,其必有共轭先验,即Beta分布。其概率分布为:
将Beta分布和二项分布相乘,可以发现
即后验概率仍然属于Beta分布,这也验证了Beta分布是二项分布的共轭先验。Beta分布的均值和方差分别为 ,。
3. Categorical分布和多项式分布
第一小节中,伯努利分布随机变量是二元的。如果拓展到多元的情况,比如随机变量可以取 K 个离散的值,我们把该类分布称为Categorical分布。和伯努利分布随机变量表示方法不同,为了方便表达,我们使用“1-of-K”表示法。这种表示法中随机变量x被表示为一个K维向量x,向量中的一个元素 等于1,剩余的元素都为0。例如,随机变量可以取 6 个离散的值,即 K = 6,如果随机变量取第三个离散值,则
如果我们用 表示 的概率,,则x的分布为:
Categorical分布期望为 。
和伯努利分布类似的,将Categorical分布实验重复N次,可以得到多项式分布(Multinomial distribution):
其中,。
4. 狄利克雷分布(Dirichlet distribution)
狄利克雷分布是多项式分布的共轭先验分布,其可以表示为:
其中 ,。可以从形式上看出我们把狄利克雷分布叫做分布的分布,是有道理的,因为如果 是确定的我们可以得到一组Categorical分布,但是 本身是服从狄利克雷分布的。
参考文献:
[1] Pattern Recognition and Machine Learning