MLaPP Chapter 10 Bayes nets 贝叶斯网络

10.1 Introduction

书里开头就引用了迈克尔·乔丹对图模型的理解,他说处理复杂系统有两个原则,模块性(modularity)个抽象性(abstraction),而概率论(probability theory)则通过因式分解(factorization)和求平均(averaging)深刻地实现了这两个原则。

概率图模型有三大任务:表征(representatino),推断(Inference),学习(Learning),表征就是怎样样用图模型表示概率分布,有有向图和无向图两种方法,推断就是怎么从已经学到的联合概率分布中推断出条件概率,学习就是怎么用数据学习出模型中的参数。具体内容分类如下,

  • 表征,Representation
    • 有向图模型,又叫贝叶斯网络
      • Undirected Graphical Models, BN, Bayes Nets [chap10]
    • 无向图模型,又叫马尔可夫随机场
      • Directed Graphical Models, MRF, Markov random fields [chap19]
  • 推断,Inference
    • 确切推断,Exact Inference [chap20]
    • 变分推断,Variational inference [chap21]
    • 更多变分推断,More Variational inference [chap22]
    • 蒙特卡洛推断,Monte Carlo inference [chap23]
    • 马尔可夫链蒙特卡洛推断,Markov chain Monte Carlo (MCMC) inference [chap24]
  • 学习,Learning
    • EM algorithm [chap11]
    • Graphical model structure learning [chap26]
    • Latant variable models for discrete data [chap27]

概率图模型有什么好的参考资料?公开课,书,网页都可以。

10.1.1 Chain rule 链式法则

一般来说,我们处理的监督问题就是试图去拟合这样的一个函数, f:RnR 也就是说输入 x 一般都是一个多维度的特征向量。在朴素贝叶斯模型中,我们曾假设不同的特征之间的相互独立的,如果不独立的话,可以用链式法则来计算一个序列的概率,

p(x1:V)=p(x1)p(x2|x1)p(x3|x2,x1)p(xV|x1:V1)
注意上面的公式都是条件概率,为了表示的简介省略了参数 θ 而已。链式法则可以用语言模型来解释(language model),整个序列的概率就是某个句子的概率。可以发现上面的条件概率越往后越复杂。

我们来分析一下要计算这个联合概率的复杂度是多少。假设每个维度的变量都一样地拥有 K 个状态,那么 p(x1) K1 个变量,复杂度是 O(K) ;接着 p(x2|x1) 要用大小为 O(K2) 随机矩阵(stochastic matrix) T 来表达,且矩阵元素满足

p(x2=j|x1=i)=Tij,Tij[0,1],ijTij=1
同样地, p(x3|x2,x1) 要用 O(K3) 条件概率表(conditional probability tables or CPTs) 来表示。到最后的一个概率,需要用 O(KV) 个参数,这个复杂度是不可以接受的。

【TODO:这里是不是可以给出一个条件概率分布的具体例子,所以可以直观地感受一下】

一种解决方法是用 CPD,Condiational probability distribution 来替代 CPT,比如 multinomial logistic regression,

p(xt=k|x1:t1)=S(Wtx1:t1)k
参数复杂度为 O(K2V2) ,为什么呢?考虑 Wt x1:t1 之间做的是内积操作,参数数量应该是一样的,都是 K(t1) ,那么 xt 一共要取 K 种状态,所以 p(xt|x1:t1) K(t1)K 个参数。那么 t=1,,V 的话,一共就是
K2(0+1+2++(V1))=K2V(V1)/2
个参数,所以参数的复杂度为 O(K2V2)

然而这种模型对有些预测问题不是很适用,因为每个变量都要依靠前面所有的变量。(不是很理解这句话。)

10.1.2 Conditioanl independence 条件独立

可以从随机变量的独立推广到条件独立,比如 X Y 在给定 Z 的条件下独立,可以写作

XY|Zp(X,Y|Z)=p(X|Z)p(Y|Z)
我们可以利用条件独立,对前面讲过的链式法则做一些假设,比如令将来的状态在给定现在状态的条件下与过去的状态无关,又叫做是 一阶马尔可夫假设(first order Markov assumption),写成表达式就是,

xt+1x1:t1|xt
那么联合概率转换成了,
p(x1:V)=p(x1)t=2Vp(xt|xt1)
这个就是 一阶马尔可夫链(first order Markov chain),可以通过初始状态分布 p(x1=i) 和状态转移矩阵 p(xt=j
  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 9
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值