Dirichlet distribution的另一种理解，对应的如何解释dirichlet process

最新推荐文章于 2022-12-28 20:24:21 发布

xyqzki

最新推荐文章于 2022-12-28 20:24:21 发布

阅读量922

点赞数

分类专栏： stats LDA Topic Model

Topic Model 同时被 3 个专栏收录

26 篇文章 1 订阅

订阅专栏

LDA

18 篇文章 0 订阅

订阅专栏

stats

13 篇文章 0 订阅

订阅专栏

参考：http://quangang.l.blog.163.com/blog/static/183178129201291714853572/

Dirichlet Process(DP)是一个很重要的统计模型，其可以看做是Dirichlet分布的一种在连续空间的推广过程。在统计学习中，DP尤其是其变形有很多重要应用，是非参贝叶斯学习的重要方法。不过目前缺乏对于这样一个模型的入门级的介绍，本文将会介绍如何从Dirichlet分布演变到Dirichlet Process，从而帮助大家更容易地踏入这个领域。其中也会有很多疏漏，请读者指正。

Dirichlet Distribution

首先，我将简单地介绍Dirichlet分布。Dirichlet分布可以看做是分布之上的分布。如何理解这句话，我们可以先举个例子：假设我们有一个骰子，其有六面，分别为{1,2,3,4,5,6}。现在我们做了10000次投掷的实验，得到的实验结果是六面分别出现了{2000,2000,2000,2000,1000,1000}次，我们可以简化一下，认为这个骰子的六面出现的概率分别为其出现的次数与试验总数的比值，则我们得到六面出现的概率，分别为{0.2,0.2,0.2,0.2,0.1,0.1}。现在，我们还不满足，我们想要做10000次试验，每次试验中我们都投掷骰子10000次。我们想知道，出现这样的情况使得我们认为，骰子六面出现概率为{0.2,0.2,0.2,0.2,0.1,0.1}的概率是多少。这样我们就在思考骰子六面出现概率分布这样的分布之上的分布。而这样一个分布就是Dirichlet分布。

现在我们给出一个数学化的定义，Dirichlet分布形式如下：

‍

其中，满足：

‍

Theta是我们所希望的一种分布可能，在上面的例子中，可以认为是{0.2,0.2,0.2,0.2,0.1,0.1}这个结果，注意，这个结果只是其很多结果中的一种。我们称M为base measure，其定义在我们的事件空间上，在骰子的例子中，就是我们认为，这个骰子的六面分别应该出现的概率。而alpha为一个精度参数，来表示这个在分布之上的分布，有多靠近M这个基准。表示theta的分布有多么接近M base distribution，alpha越大，就越接近，alpha为precision的measure。这个参数，从一定意义上，可以看做在整个实验之前，我们在脑子中进行的虚拟实验的数量，也就是投掷骰子出现1-6的总次数。通过这么多次的虚拟实验，我们得到了M这样一个基准，作为我们判别的标志。所进行的虚拟实验的次数越多，我们认为M越可信。

Dirichlet Process

接下来，我们将从Dirichlet分布过渡到Dirichlet Process。

我们再来看刚才那个骰子的例子，我们用一种形式化的语言来描述这个问题：认为骰子的事件空间，就是掷骰子得到1到6中的一个结果为X，则X = {X1,X2,X3,X4,X5,X6}。那么对于刚才那个问题，就可以看做在这个事件空间之上，有一个分布，用Theta表示。而我们的Dirichlet分布是建立在这个分布之上的分布，其参数为alpha和M。

现在，我们换一个角度来看这个问题。我们现在是单纯地将骰子分成了6组，每组对应一个独立的事件。事实上，我们完全可以按照我们的想法来对其分组。假如我们现在对事件空间进行重新分组，则我们将会得到完全不同的结果。比如我们分成3组，每组对应2个事件的话，我们将会得到一个新的Theta，即新的分布。而我们对于这个新的分布，又能够建立一个新的对应的Dirichlet分布。

好，让我们推广一下，用一些形式化的语言来描述一下一般情况。对于给定的一个事件空间X，我们将其划分为n组，使得其满足：

‍

对于这样一个分划，我们可以在其上定义一个对应的Dirichlet分布：

‍

我们观察这个分布，我们发现这个式子其实是暗含了，对于事件空间上的任意一种分布，我们都可以有一个对应的Dirichlet分布存在。那么我们定义Dirichlet Process为所有的划分上的所有分布所构成的空间上的唯一分布。这个定义也许很tricky，我们可以分两层来理解：首先对于事件空间X，是存在各种分布的，而这些分布可以对应于各种划分。其次，这些分布本身，构成了一个由分布组成的空间，而定义在这个空间之上的分布，就是我们所定义的Dirichlet Process。