10.1 Introduction
书里开头就引用了迈克尔·乔丹对图模型的理解,他说处理复杂系统有两个原则,模块性(modularity)个抽象性(abstraction),而概率论(probability theory)则通过因式分解(factorization)和求平均(averaging)深刻地实现了这两个原则。
概率图模型有三大任务:表征(representatino),推断(Inference),学习(Learning),表征就是怎样样用图模型表示概率分布,有有向图和无向图两种方法,推断就是怎么从已经学到的联合概率分布中推断出条件概率,学习就是怎么用数据学习出模型中的参数。具体内容分类如下,
- 表征,Representation
- 有向图模型,又叫贝叶斯网络
- Undirected Graphical Models, BN, Bayes Nets [chap10]
- 无向图模型,又叫马尔可夫随机场
- Directed Graphical Models, MRF, Markov random fields [chap19]
- 有向图模型,又叫贝叶斯网络
- 推断,Inference
- 确切推断,Exact Inference [chap20]
- 变分推断,Variational inference [chap21]
- 更多变分推断,More Variational inference [chap22]
- 蒙特卡洛推断,Monte Carlo inference [chap23]
- 马尔可夫链蒙特卡洛推断,Markov chain Monte Carlo (MCMC) inference [chap24]
- 学习,Learning
- EM algorithm [chap11]
- Graphical model structure learning [chap26]
- Latant variable models for discrete data [chap27]
概率图模型有什么好的参考资料?公开课,书,网页都可以。
10.1.1 Chain rule 链式法则
一般来说,我们处理的监督问题就是试图去拟合这样的一个函数, f:Rn→R 也就是说输入 x 一般都是一个多维度的特征向量。在朴素贝叶斯模型中,我们曾假设不同的特征之间的相互独立的,如果不独立的话,可以用链式法则来计算一个序列的概率,
我们来分析一下要计算这个联合概率的复杂度是多少。假设每个维度的变量都一样地拥有 K 个状态,那么
【TODO:这里是不是可以给出一个条件概率分布的具体例子,所以可以直观地感受一下】
一种解决方法是用 CPD,Condiational probability distribution 来替代 CPT,比如 multinomial logistic regression,
然而这种模型对有些预测问题不是很适用,因为每个变量都要依靠前面所有的变量。(不是很理解这句话。)
10.1.2 Conditioanl independence 条件独立
可以从随机变量的独立推广到条件独立,比如 X 和