MLaPP Chapter 3: Generative models for distrete data

最新推荐文章于 2022-01-22 12:23:21 发布

张小彬的代码人生

最新推荐文章于 2022-01-22 12:23:21 发布

阅读量2.1k

点赞数 1

分类专栏： MLaPP 机器学习

本文链接：https://blog.csdn.net/zhangxb35/article/details/54926401

版权

3.1 Introduction

生成模型（generative model）一般会按照下面的贝叶斯公式构造分类器：

p (y = c | x, θ) \propto p (x | y = c, θ) p (y = c | θ))

$p(y=c|\mathrm{x, \theta}) \propto p(\mathrm{x}|y=c, \theta)p(y=c|\theta))$

中间的 $\propto$ 符号表示“正比于”，即忽略了常系数。而概率 $p(\text{x}|y=c,\theta)$ 名字叫做 class-conditional density，后一项概率 $p(y=c|\theta)$ 则叫做 class prior。

3.2 Bayesian concept learning 贝叶斯概念学习

概念学习（Concept learning）其实是一个二分类问题，学习的是一个指示函数（Indicator function），但是和二分类问题不同，我们可以仅仅只从正例中学习。

考虑下面一个数字游戏。选择一个简单的数学概念 $C$ ，如奇数，素数等，给定从概念 $C$ 中提取的样本集合 $\mathcal{D}=\{x_1,...,x_N\}$ ，求测试样例，即某数字 $\overline{x}$ 是否属于概念 $C$ .

举个例子，见figure 3.1的第三张图，给定了集合 $\mathcal{D}=\{16,8,2,64\}$ ，对于 $\overline{x} = 1,...,100$ 的范围， $\overline{x}$ 和数据集 $\mathcal{D}$ 中的所有数字符合同一个数学概念 $C$ 的概率 $p(\overline{x})$ 形成一个经验分布（即做实验让人们去猜，然后统计）。从分布中可以看到，人们倾向于把那些 $2$ 的倍数判定为符合概念 $C$ 的。图中展示的分布称为后验预测分布（posterior predictive distribution）。

3.2.1 Likelihood 似然

现在考虑一个问题，给定数据集 $\mathcal{D} = \{16,8,2,64\}$ ，假设空间（hypothesis space） $\mathcal{H}$ 可以取 $h_{two} \triangleq$ “power of two”，或者 $h_{even} \triangleq$ “even number”，然而一般我们会倾向于前一个假设，因为其似然概率最大，这也符合奥卡姆剃刀原理（Occam’s razor），即认为相同表达能力和解释能力的条件下，简单的理论会比复杂的理论更好。

假设我们做一个强采样假设（strong sampling assumption），从概念 $C$ 中抽取一个集合， $\{1,2,3,...,99,100\}$ ，那么上述两种假设的似然概率就是从 100 个数中采样得到这四个数的概率，有：

p (D | h t w o) = (1 6) 4 > p (D | h e v e n) = (1 50) 4

$p(\mathcal{D}|h_{two}) = (\frac16)^4 > p(\mathcal{D}|h_{even}) = (\frac1{50})^4$ 结论就很明显了。

3.2.2 Prior 先验

同样对于集合 $\mathcal{D}=\{16,8,2,64\}$ ，根据上面的似然概率，假设 $h'=$ “powers of two except 32” 的概率应该会更大，但是我们可以从“经验”上判断，这个概念有点不自然。这个主观上的（subjective）信息，称为先验，一般代表了该问题的背景知识。

3.2.3 Posterior 后验

后验就是似然乘以先验，再做一个归一化，如下：

p (h | D) = p ( D | h ) p ( h ) \sum h ' \in H p ( D , h ' ) = p ( h ) I ( D \in h ) / | h | N \sum h ' \in H p ( h ' ) I ( D \in h ' ) / | h ' | N

$p(h|\mathcal{D}) = \frac{p(\mathcal{D}|h)p(h)}{\sum_{h' \in \mathcal{H}} p(\mathcal{D,h'})} = \frac{p(h)\mathbb{I}(\mathcal{D} \in h) / |h|^N}{\sum_{h' \in \mathcal{H}}p(h')\mathbb{I}(\mathcal{D} \in h') / |h'|^N}$ 其中

I(D∈h) $\mathbb{I}(\mathcal{D} \in h)$ 当且仅当集合中所有的元素都符合假设

h $h$ 时才取值为

1 $1$ （iff all the data are in the extension of the hypothesis h）。

当数据量足够大时，后验概率 $p(h|\mathcal{D})$ 会趋向最大后验估计（MAP estimate, maximum a posterior estimation），如

p (h | D) \to δ h ˆ M A P (h)

$p(h|\mathcal{D}) \rightarrow \delta_{\widehat{h}^{MAP}}(h)$ 其中，右边的

δ x (A) = {10 i f x \in A i f x \notin A

$\delta_x(A) = \left\{\begin{matrix} 1 & \mathrm{if}\ x \in A \\ 0 & \mathrm{if}\ x \notin A \end{matrix}\right.$ 为狄拉克测度（Dirac measure），

hˆMAP=argmaxhp(h|D) $\widehat{h}^{MAP} = \mathrm{argmax}_h p(h|\mathcal{D})$ 为后验模式（posterior mode）。

后验概率公式可以继续写下去，

h ˆ M A P = arg max h p (D | h) p (h) = arg max h [log p (D | h) + log p (h)]

$\widehat{h}^{MAP} = \arg\max_h p(\mathcal{D}|h)p(h)=\arg\max_h[\log p(\mathcal{D}|h) + \log p(h)]$ 注意到第一个加法项其实是最大似然估计（MLE, maximum likelihood estimate），

h ˆ m l e ≜ arg max h p (D | h) = arg max h log p (D | h)

$\widehat{h}^{mle} \triangleq \arg\max_h p(\mathcal{D}|h) = \arg\max_h \log p(\mathcal{D}|h)$ 由于最大似然估计项会随着数据集的增大而指数增长，而先验项则为常数，因此后验概率是逐渐逼近最大似然估计的。通俗点说，数据压倒专家（data overwhelms the prior）。

3.2.4 Posterior predictive distribution 后验预测分布

再来重新考虑一开始提到的后验预测分布，现在我们可以用后验公式来计算某测试数字 $\widehat{x}$ 是否属于概念 $C$ 的概率，如下：

p (x ˜ \in C | D) = \sum h p (y = 1 | x ˜, h) p (h | D)

$p(\widetilde{x} \in C|\mathcal{D}) = \sum_h p(y=1|\widetilde{x},h)p(h|\mathcal{D})$ 其实这个公式是说，把每个假设（hypothesis，如素数集，偶数集等）的后验加权，得到一个概率。权重也是人为给出的。这种给出后验预测分布的方法称作是贝叶斯模型平均（Beyes model averaging）。

随着数据集的增大，后验为以最大后验估计为中心的 delta 函数（脉冲），因此有：

p (x ˜ \in C | D) = \sum h p (x ˜ | h) δ h ˆ (h) = p (x ˜ | h ˆ)

$p(\widetilde{x} \in C | \mathcal{D}) = \sum_h p(\widetilde{x} | h) \delta_{\widehat{h}}(h) = p(\widetilde{x} | \widehat{h})$ 即，直接用概率最大的那个假设的结果当做最终结果，而非前面的全部假设都有一个权重参与进来。显然这样做会简单一些，但是容易小样本过拟合。

3.2.5 A more complex prior 一个更复杂的先验

在数字游戏中，作者用了两种先验，并用参数 $\pi$ 和 $1-\pi$ 把两个先验串起来。

3.3 The beta-binomial model 贝塔－二项式模型

下面考虑连续随机变量中的贝叶斯推断问题，但是这次我们用一个扔硬币的例子。

3.3.1 Likelihood 似然

似然函数就是某种假设前提下，一系列事件发生的概率。比如连续扔 $N$ 次的硬币，每次扔硬币这个事件是独立同分布的（比如都是伯努利分布），所以这 $N$ 次扔硬币发生的概率就是似然概率，如下：

p (D | θ) = θ N 1 (1 - θ) N 0

$p(\mathcal{D}|\theta) = \theta^{N_1}(1-\theta)^{N_0}$
其中离散随机变量

Xi∼Ber(θ) $X_i \sim \mathrm{Ber}(\theta)$ ，而

Xi=1 $X_i=1$ 表示硬币正面朝上，

Xi=0 $X_i=0$ 则相反；

θ $\theta$ 表示硬币正面朝上的概率。假设投了

N $N$ 次硬币，得到

N1=∑Ni=1I(Xi=1) $N_1 = \sum_{i=1}^{N}\mathbb{I}(X_i=1)$ 次正面朝上，得到

N0=∑Ni=1I(Xi=0) $N_0 = \sum_{i=1}^{N}\mathbb{I}(X_i=0)$ 次反面朝上。

此外，这两个数可以称作是数据集的充分统计量（sufficient statistics），表示为 $\mathcal{D}=\{N_1,N_0\}$ 。当然，也可以是 $N_1$ 和 $N = N_1 + N_2$ ，即 D

最低0.47元/天解锁文章

张小彬的代码人生

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
MLaPP Chapter 3: Generative models for distrete data

3.1 Introduction生成模型（generative model）一般会按照下面的贝叶斯公式构造分类器：p(y=c|x,θ)∝p(x|y=c,θ)p(y=c|θ))p(y=c|\mathrm{x, \theta}) \propto p(\mathrm{x}|y=c, \theta)p(y=c|\theta))中间的 ∝\propto 符号表示“正比于”，即忽略了常系数。而概率 p(x|y=
复制链接

扫一扫