Dirichlet Process 1

当面对未知分布的样本集,尤其是高维数据时,确定样本归属的高斯分布数量是一个挑战。文章提到,可以使用狄利克雷过程(DP)来生成分布H的离散版本G,G的离散程度由参数控制。DP帮助解决连续分布的聚类问题,每个样本对应一个特定的分布参数,而这些分布整体出自H。G作为一个随机测度,提供了处理这种复杂情况的方法。
摘要由CSDN通过智能技术生成

如下图的一个简单样本,如果我们不知道图中的样本是出自几个高斯分布,那我们如果求这个图中的样本应该归属于几个高斯分布那?直观看上去,有同学可能说是4个,有同学可能说是2个,然而如果是高维数据那?可能我们画都没有办法把它画出来,这个时候连直观上去猜都没有办法猜。

 这个问题实际上是一个数据的统计聚类问题。

这里假设如果每个数据都给一个参数,

         x_{1} \quad \theta _{1} \newline x_{2} \quad \theta _{2}\newline \quad .\quad\quad . \newline \quad .\quad\quad . \newline \quad .\quad\quad . \newline x_{n} \quad \theta _{n}

并且假设\theta _{i} \sim H(\theta )

这里面如果H(\theta )是一个连续的分布,那么P\{\theta _{i} = \theta _{j}\} = 0

所以\theta _{i}不能从一个连续的分布中来取。

那么我们想通过一种方法,获得H的一个离散的版本,即G\sim DP(\alpha ,H),这里面的DP代表Dirichlet Process,即狄利克雷过程,这里面的\alpha是一个scalar,且\alpha > 0\alpha表征H的离散版本G有多离散,\alpha越小,G越离散;\alpha越大,G越不离散。极端情况,\alpha = 0,那么G就是一个值,如果\alpha \rightarrow \infty,G就是H。

G被称为H的随机测度。

总结,任意一个样本x_{i}都对应一个产生它的分布,且这个分布的参数为\theta _{i}\theta _{i}又出自分布H,H可能是连续的也可能是离散的,可以同归DP产生G的一个随机测度

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值