MLaPP Chapter 10 Bayes nets 贝叶斯网络

最新推荐文章于 2023-10-28 22:12:32 发布

张小彬的代码人生

最新推荐文章于 2023-10-28 22:12:32 发布

阅读量2.6k

点赞数 2

分类专栏：机器学习 MLaPP 文章标签：贝叶斯网络概率图模型机器学习

本文链接：https://blog.csdn.net/zhangxb35/article/details/54928370

版权

10.1 Introduction

书里开头就引用了迈克尔·乔丹对图模型的理解，他说处理复杂系统有两个原则，模块性（modularity）个抽象性（abstraction），而概率论（probability theory）则通过因式分解（factorization）和求平均（averaging）深刻地实现了这两个原则。

概率图模型有三大任务：表征（representatino），推断（Inference），学习（Learning），表征就是怎样样用图模型表示概率分布，有有向图和无向图两种方法，推断就是怎么从已经学到的联合概率分布中推断出条件概率，学习就是怎么用数据学习出模型中的参数。具体内容分类如下，

表征，Representation
- 有向图模型，又叫贝叶斯网络
  - Undirected Graphical Models, BN, Bayes Nets [chap10]
- 无向图模型，又叫马尔可夫随机场
  - Directed Graphical Models, MRF, Markov random fields [chap19]
推断，Inference
- 确切推断，Exact Inference [chap20]
- 变分推断，Variational inference [chap21]
- 更多变分推断，More Variational inference [chap22]
- 蒙特卡洛推断，Monte Carlo inference [chap23]
- 马尔可夫链蒙特卡洛推断，Markov chain Monte Carlo (MCMC) inference [chap24]
学习，Learning
- EM algorithm [chap11]
- Graphical model structure learning [chap26]
- Latant variable models for discrete data [chap27]

概率图模型有什么好的参考资料？公开课，书，网页都可以。

10.1.1 Chain rule 链式法则

一般来说，我们处理的监督问题就是试图去拟合这样的一个函数， $f: \mathbb{R}^n \rightarrow \mathbb{R}$ 也就是说输入 $\mathbf{x}$ 一般都是一个多维度的特征向量。在朴素贝叶斯模型中，我们曾假设不同的特征之间的相互独立的，如果不独立的话，可以用链式法则来计算一个序列的概率，

p (x 1 : V) = p (x 1) p (x 2 | x 1) p (x 3 | x 2, x 1) \dots p (x V | x 1 : V - 1)

$p(x_{1:V}) = p(x_1)p(x_2|x_1)p(x_3|x_2,x_1)\cdots p(x_V|x_{1:V-1})$ 注意上面的公式都是条件概率，为了表示的简介省略了参数

θ $\boldsymbol\theta$ 而已。链式法则可以用语言模型来解释（language model），整个序列的概率就是某个句子的概率。可以发现上面的条件概率越往后越复杂。

我们来分析一下要计算这个联合概率的复杂度是多少。假设每个维度的变量都一样地拥有 $K$ 个状态，那么 $p(x_1)$ 有 $K-1$ 个变量，复杂度是 $O(K)$ ；接着 $p(x_2|x_1)$ 要用大小为 $O(K^2)$ 的 随机矩阵（stochastic matrix） $T$ 来表达，且矩阵元素满足

p (x 2 = j | x 1 = i) = T i j, T i j \in [0, 1], \sum i j T i j = 1

$p(x_2 = j | x_1 = i) = T_{ij},\quad T_{ij} \in [0,1],\quad \sum_{ij} T_{ij} = 1$ 同样地，

p(x3|x2,x1) $p(x_3|x_2, x_1)$ 要用

O(K3) $O(K^3)$ 的 条件概率表（conditional probability tables or CPTs） 来表示。到最后的一个概率，需要用

O(KV) $O(K^V)$ 个参数，这个复杂度是不可以接受的。

【TODO：这里是不是可以给出一个条件概率分布的具体例子，所以可以直观地感受一下】

一种解决方法是用 CPD，Condiational probability distribution 来替代 CPT，比如 multinomial logistic regression，

p (x t = k | x 1 : t - 1) = S (W t x 1 : t - 1) k

$p(x_t = k|\mathbf{x}_{1:t-1}) = \mathcal{S}(\mathbf{W}_t \mathbf{x}_{1:t-1})_k$ 参数复杂度为

O(K2V2) $O(K^2V^2)$ ，为什么呢？考虑

Wt $\mathbf{W}_t$ 和

x1:t−1 $\mathbf{x}_{1:t-1}$ 之间做的是内积操作，参数数量应该是一样的，都是

K(t−1) $K(t-1)$ ，那么

xt $x_t$ 一共要取

K $K$ 种状态，所以

p(xt|x1:t−1) $p(x_t|\mathbf{x}_{1:t-1})$ 有

K(t−1)K $K(t-1)K$ 个参数。那么

t=1,⋯,V $t=1,\cdots,V$ 的话，一共就是

K 2 (0 + 1 + 2 + \dots + (V - 1)) = K 2 V (V - 1) / 2

$K^2(0+1 + 2 + \cdots + (V - 1)) = K^2 V(V-1)/2$ 个参数，所以参数的复杂度为

O(K2V2) $O(K^2V^2)$ 。

然而这种模型对有些预测问题不是很适用，因为每个变量都要依靠前面所有的变量。（不是很理解这句话。）

10.1.2 Conditioanl independence 条件独立

可以从随机变量的独立推广到条件独立，比如 $X$ 和 $Y$ 在给定 $Z$ 的条件下独立，可以写作

X ⊥ Y | Z ⟺ p (X, Y | Z) = p (X | Z) p (Y | Z)

$X \perp Y | Z \Longleftrightarrow p(X,Y|Z) = p(X|Z)p(Y|Z)$ 我们可以利用条件独立，对前面讲过的链式法则做一些假设，比如令将来的状态在给定现在状态的条件下与过去的状态无关，又叫做是 一阶马尔可夫假设（first order Markov assumption），写成表达式就是，

x t + 1 ⊥ x 1 : t - 1 | x t

$x_{t+1} \perp \mathbf{x}_{1:t-1} | x_t$ 那么联合概率转换成了，

p (x 1 : V) = p (x 1) \prod t = 2 V p (x t | x t - 1)

$p(x_{1:V}) = p(x_1) \prod_{t=2}^Vp(x_t|x_{t-1})$ 这个就是 一阶马尔可夫链（first order Markov chain），可以通过初始状态分布

p(x1=i) $p(x_1=i)$ 和状态转移矩阵

p(xt=j

最低0.47元/天解锁文章

张小彬的代码人生

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
9
评论
MLaPP Chapter 10 Bayes nets 贝叶斯网络

10.1 Introduction书里开头就引用了迈克尔·乔丹对图模型的理解，他说处理复杂系统有两个原则，模块性（modularity）个抽象性（abstraction），而概率论（probability theory）则通过因式分解（factorization）和求平均（averaging）深刻地实现了这两个原则。概率图模型有三大任务：表征（representatino），推断（Inference
复制链接

扫一扫