一文搞定（五）—— 概率图模型

最新推荐文章于 2023-01-06 20:36:00 发布

江湖留名

最新推荐文章于 2023-01-06 20:36:00 发布

阅读量265

点赞数

分类专栏：机器学习文章标签：概率论机器学习

本文链接：https://blog.csdn.net/weixin_43728138/article/details/108549593

版权

机器学习专栏收录该内容

11 篇文章 5 订阅

订阅专栏

【参考资料】
1.B站：机器学习-白板推导系列(九)-概率图模型基础
2.知乎：概率图模型简要笔记

简写
BN: bayesian network
CPD: conditional probability distribution
DAG: directed acyclic graph，即有向非循环图
RV: random variable

1 概览

$\text{概率图的两要素}:\begin{cases} \text{研究的问题：高维随机变量} \\[3pt] \text{解决办法：条件独立性假设} \end{cases}$

1.1 核心问题

整个概率图模型的核心问题：高维随机变量

1.2 计算法则

$\begin{cases} \text{Sum Rule}: P(x_1)=\int P(x_1,x_2)dx_2 \\[3pt] \text{Product Rule}: P(x_1,x_2)=P(x_1)P(x_2|x_1)=P(x_2)P(x_1|x_2) \\[3pt] \text{Chain Rule}: P(x_1,...,x_p)=\prod^p_{i=1}P(x_i|x_1,...,x_{i-1}) \\[3pt] \text{Bayesian Rule}: P(x_2|x_1)=\frac{P(x_1,x_2)}{P(x_1)}=\frac{P(x_1,x_2)}{\int P(x_1,x_2)dx_2}=\frac{P(x_2)P(x_1|x_2)}{\int P(x_2)P(x_1|x_2)dx_2} \end{cases}$

1.3 困境以及解决办法

高维随机变量 $P(x_1,...,x_p)$ 的计算量过大
为了简化计算，可以使用一系列的方法

朴素贝叶斯 Naive Bayesian
假设各维度之间相互独立
$\tag{1}P(x_1,...,x_p)=\prod^p_{i=1}P(x_i)$
马尔科夫假设
朴素贝叶斯的假设有点太强了
因此不妨退一步，使得状态 $i + 1$ 只与状态 $i$ 有关，和其他相互独立，就得到了马尔科夫假设
$x_j\perp x_{i+1}|x_i,j<i$
条件独立性假设
对于现实问题，马尔科夫假设依旧很强
此时再退一步，集合 $A, B, C$ 是互不相交的随机变量的集合，在给定集合 $C$ 的条件下，集合 $A$ 与集合 $B$ 独立，这样就得到了条件独立性假设
$x_A\perp x_B|x_C$

2 贝叶斯网络

A Bayesian network $\mathcal{B}$ is a tuple $(\mathcal{G},\{P_{X_1},...,P_{X_N}\})$
where,

$\mathcal{G}=(\bm{X},\bm{E})$ is a DAG (directed acyclic graph)，即有向非循环图
each node $X_i$ corresponds to an RV
$P_{X_i}$ are CPDs with the form $P_{X_i}(X_i|X_{pa(i)})$ ， $X_{pa(i)}$ 表示 $X_i$ 的所有父节点的集合

The BN $\mathcal{B}$ defines the joint probability distribution
$\tag{2}P_{\mathcal{B}}(X_1,...,X_N)=\prod_{i=1}^N P_{X_i}(X_i|X_{pa(i)})$

2.1 三种基本的拓扑结构

概率图就是将图赋予了概率定义，可以直观的根据图结构寻找到概率之间的独立性，从而将复杂的计算简化。以下是概率图所涉及的概念：

链式法则
$\tag{4}P(x_1,...,x_p)=\prod^p_{i=1}P(x_i|x_1,...,x_{i-1})$
条件独立性
$x_A\perp x_B|x_C$
因子分解
$\tag{5}P(x_1,...,x_p)=\prod^p_{i=1}P(x_i|x_{pa(i)})$
where, $x_{pa(i)}$ 指的是 $x_i$ 的父节点的集合

其中，链式法则无论如何都成立；而因子分解则源于 BN 的定义，根据概率图模型可以很直观地写出其对应的因子分解

2.1.1 结构一 diverging connection

因子分解 $p (a, b, c) = p (a) p (b ∣ a) p (c ∣ a)$
链式法则 $p (a, b, c) = p (a) p (b ∣ a) p (c ∣ a, b)$
由 $p (c ∣ a) = p (c ∣ a, b)$ 可得，若 $a$ 被观察，则 $b$ 与 $c$ 独立
也直接得到了条件独立的定义 $p (b, c ∣ a) = p (b ∣ a) p (c ∣ a)$

规律：在 diverging connection 中， $\perp c|a$ （可以理解如果父亲不在，那么两兄弟的联系最强；如果父亲在，即被观测，那么就是父子之间的联系最强）
注：括号中的内容只是为了方便记忆

2.1.2 结构二 serial connection

因子分解 $p (a, b, c) = p (a) p (b ∣ a) p (c ∣ b)$
链式法则 $p (a, b, c) = p (a) p (b ∣ a) p (c ∣ a, b)$
由 $p (c ∣ b) = p (c ∣ a, b)$ 可得，若 $b$ 被观察，则 $a$ 与 $c$ 独立

规律：在 serial connection 中， $\perp c|b$ （同 2.1.1，如果父亲不在，爷孙之间的联系最强；如果父亲在，即被观测，那么就是两队父子之间的联系最强）

2.1.3 结构三 converging connection

因子分解 $p (a, b, c) = p (a) p (b) p (c ∣ a, b)$
链式法则 $p (a, b, c) = p (a) p (b ∣ a) p (c ∣ a, b)$
由 $p (b) = p (b ∣ a)$ 可得，若 $c$ 不被观察，则 $a$ 与 $b$ 独立

规律：在 converging connection 中， $\perp b$ ，即 a, b 本身就相互独立。但是，一旦 c 或其后继节点被观察了，那么两者的独立性就会被立刻打破（类似于 2.1.1，可以理解为如果两人有了后代，那么就产生了亲情）

2.2 D-Seperation

D-Seperation 是对三种基本拓扑节点关系的推广，将节点关系推广到集合关系
定义：假定集合 $A, B, C$ 之间互不相交，且 $B$ 是 $A, C$ 之间的路径，如果 $B$ 中的每个节点都满足以下两个条件之一，则认为 $A$ 和 $C$ 是 $B$ 条件独立的（ $X_A\perp X_C|X_B$ ）

b 的结构为 diverging or serial connetion，并且 b 被观测
b 的结构为 converging connection，并且 b 及其后继节点均未被观测

D-Seperation 的意义在于帮我们找到了条件独立性

2.3 Markov Blanket

基于所有节点，点 $x_i$ 的条件概率为
$\tag{6}p(x_i|x_{-i})=\frac{p(x_i,x_{-i})}{p(x_{-i})}=\frac{p(x)}{\int p(x)dx_i}=\frac{\prod_{j=1}^p p(x_j|x_{pa(j)})}{\int \prod_{j=1}^p p(x_j|x_{pa(j)})dx_i}$
where,

$x_{-i}$ 指除 $x_i$ 以外所有节点的集合
第三个表达式的分母中的积分符号为条件概率的计算公式

把第四个表达式的 $\prod...$ 分成与 $x_i$ 相关以及不相关的两部分，与 $x_i$ 不相关的部分可以直接从分母的积分中提取出来，因而与分子约掉。由此可得， $p(x_i|x_{-i})$ 只与和 $x_i$ 相关联的节点有关，如下

父节点 $p(x_i|x_{pa(i)})$
子节点及其另外的父节点 $p(x_{child(i)}|x_i,x_{pa(child(i))})$

这张图直观地表达了这种关系，被称之为马尔科夫毯

2.4 典型的模型

在这里插入图片描述
贝叶斯网络总的来说就是两句话：

从单一到混合
从有限到无限

单一到混合比较好理解，如上图
有限到无限，指的是随机变量由空间和时间上的离散变为连续

3 马尔科夫随机场

Markov Network (以下称 MN)，是一种无向图模型
直观上来说它比有向图简单，而且它应该也和有向图具有相似的性质，尤其是条件独立性和因子分解应该是相互等价的

3.1 条件独立性

马尔可夫随机场的条件独立性一共有三个，分别是：

全局独立性
局部独立性
马尔科夫性

三个性质是相互等价的，即可以相互推导。

3.1.1 全局马尔科夫性 Global Markov

相较于有向图 (如 BN) 的条件独立性，MN 的全局马尔科夫性非常简单

假定集合 $A, B, C$ 之间互不相交，若集合 $A$ 到 $C$ 的所有路径中都至少有一个节点位于集合 $B$ ，且 $B$ 被观测，则认为 $A$ 和 $C$ 是 $B$ 条件独立的
$X_A\perp X_C|X_B$

3.1.2 局部马尔科夫性 Local Markov

在这里插入图片描述
给定相邻节点 ${b,c,d\}$ ，节点 $a$ 与集合中的其他节点独立 ${e,f\}$
$a\perp (全集-a-\text{neighbor}(a))|\text{neighbor}(a)$

3.1.3 成对马尔科夫性

节点 $a, b$ 是两个不相邻的节点，在除了 $a, b$ 以外的节点都被观测到的情况下， $a, b$ 相互独立

3.2 因子分解

因子分解应该要能够体现条件独立性，或者说这两者应该是等价的

3.2.1 最大团

在介绍 MN 的因子分解前，首先介绍如下概念

团：关于节点的集合（集合中的节点相互连接）
最大团：往最大团中添加任意节点都会破坏团的性质

例如对于 Section 3.1.2 中的图片，每对相连的节点都是一个最大团

3.2.2 因子分解（基于最大团）

将马尔科夫随机场分解为多个最大团后，可得整个随机变量的概率
$\tag{7}p(x)=\frac{1}{Z}\prod_{i=1}^K \psi(x_{c_i})$

where,

$c_i$ : 第 $i$ 个最大团
$x_{c_i}$ : 第 $i$ 个最大团中随机变量的集合
$\psi(x_{c_i})$ : 势函数，必须为正（不存在负概率）
$Z$ 为归一化因子，又称 partition function（配分函数）
$Z=\sum_x\prod_{i=1}^K \psi(x_{c_i})=\sum_{x_1}...\sum_{x_p}\prod_{i=1}^K \psi(x_{c_i})$

3.2.3 条件独立性 $\iff$ 因子分解

Hammesley-Clifford 定理证明了 MN 的条件独立性（全局马尔科夫 + 局部马尔科夫 + 成对马尔科夫）与基于其最大团的因子分解是等价的

3.2.4 势函数 $\psi(x_{c_i})$

定义
$\tag{8}\psi(x_{c_i})=\exp(-E(x_{c_i}))$

where, $E(x_{c_i})$ : energy function

代入 Eq.7 可得
$\tag{9}p(x)=\frac{1}{Z}\prod_{i=1}^K\exp(-E(x_{c_i}))=\frac{1}{Z}\exp(-\sum_{i=1}^KE(x_{c_i}))$

此时 $p (x)$ 满足吉布斯分布（玻尔兹曼分布）

4 Inference

Inference，推断，就是求概率
边缘概率

江湖留名

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
一文搞定（五）—— 概率图模型

【参考资料】1.B站：机器学习-白板推导系列(九)-概率图模型基础2.知乎：概率图模型简要笔记1 概览概率图的两要素:{研究的问题：高维随机变量解决办法：条件独立性假设\text{概率图的两要素}:\begin{cases} \text{研究的问题：高维随机变量} \\[3pt] \text{解决办法：条件独立性假设}\end{cases}概率图的两要素:{研究的问题：高维随机变量解决办法：条件独立性假设1.1 核心问题整个概率图模型的核心问题：高维随机变量1.2 计算法则
复制链接

扫一扫