狄利克雷分布(Dirichlet Distribution)是一种在概率论和统计学中常用的多元概率分布,通常用于表示在一个多维空间内取值的随机变量的概率分布。
狄利克雷分布的随机变量是一个向量,其中每个分量都是在[0, 1]范围内的实数,而且所有分量的和为1。这种向量通常被用来表示在多个类别中的概率分布,比如文档中不同词的分布、多个主题的分布等。
狄利克雷分布的概率密度函数如下:
其中,是向量的分量,是狄利克雷分布的参数,被称为 concentration parameters(浓度参数),而 B(α) 是多元贝塔函数,定义为:
狄利克雷分布的参数
决定了分布的形状,不同的参数可以得到不同形状的分布。特别地,当所有的 αi 都相等时,狄利克雷分布被称为均匀分布,即所有的类别概率是等可能的。