MLaPP Chapter 3: Generative models for distrete data

3.1 Introduction

生成模型(generative model)一般会按照下面的贝叶斯公式构造分类器:

p(y=c|x,θ)p(x|y=c,θ)p(y=c|θ))

中间的 符号表示“正比于”,即忽略了常系数。而概率 p(x|y=c,θ) 名字叫做 class-conditional density,后一项概率 p(y=c|θ) 则叫做 class prior。

3.2 Bayesian concept learning 贝叶斯概念学习

概念学习(Concept learning)其实是一个二分类问题,学习的是一个指示函数(Indicator function),但是和二分类问题不同,我们可以仅仅只从正例中学习。

考虑下面一个数字游戏。选择一个简单的数学概念 C ,如奇数,素数等,给定从概念 C 中提取的样本集合 D={ x1,...,xN} ,求测试样例,即某数字 x¯ 是否属于概念 C .

举个例子,见figure 3.1的第三张图,给定了集合 D={16,8,2,64} ,对于 x¯=1,...,100 的范围, x¯ 和数据集 D 中的所有数字符合同一个数学概念 C 的概率 p(x¯) 形成一个经验分布(即做实验让人们去猜,然后统计)。从分布中可以看到,人们倾向于把那些 2 的倍数判定为符合概念 C 的。图中展示的分布称为后验预测分布(posterior predictive distribution)

3.2.1 Likelihood 似然

现在考虑一个问题,给定数据集 D={ 16,8,2,64} ,假设空间(hypothesis space) H 可以取 htwo “power of two”,或者 heven “even number”,然而一般我们会倾向于前一个假设,因为其似然概率最大,这也符合奥卡姆剃刀原理(Occam’s razor),即认为相同表达能力和解释能力的条件下,简单的理论会比复杂的理论更好。

假设我们做一个强采样假设(strong sampling assumption),从概念 C 中抽取一个集合, {1,2,3,...,99,100} ,那么上述两种假设的似然概率就是从 100 个数中采样得到这四个数的概率,有:

p(D|htwo)=(16)4>p(D|heven)=(150)4
结论就很明显了。

3.2.2 Prior 先验

同样对于集合 D={ 16,8,2,64} ,根据上面的似然概率,假设 h= “powers of two except 32” 的概率应该会更大,但是我们可以从“经验”上判断,这个概念有点不自然。这个主观上的(subjective)信息,称为先验,一般代表了该问题的背景知识。

3.2.3 Posterior 后验

后验就是似然乘以先验,再做一个归一化,如下:

p(h|D)=p(D|h)p(h)hHp(D,h)=p(h)I(Dh)/|h|NhHp(h)I(Dh)/|h|N
其中 I(Dh) 当且仅当集合中所有的元素都符合假设 h 时才取值为 1 (iff all the data are in the extension of the hypothesis h)。

当数据量足够大时,后验概率 p(h|D) 会趋向最大后验估计(MAP estimate, maximum a posterior estimation),如

p(h|D)δhˆMAP(h)
其中,右边的
δx(A)={ 10if xAif xA
为 狄拉克测度(Dirac measure), hˆMAP=argmaxhp(h|D) 为后验模式(posterior mode)。

后验概率公式可以继续写下去,

hˆMAP=argmaxhp(D|h)p(h)=argmaxh[logp(D|h)+logp(h)]
注意到第一个加法项其实是最大似然估计(MLE, maximum likelihood estimate),
hˆmleargmaxhp(D|h)=argmaxhlogp(D|h)
由于最大似然估计项会随着数据集的增大而指数增长,而先验项则为常数,因此后验概率是逐渐逼近最大似然估计的。通俗点说,数据压倒专家(data overwhelms the prior)。

3.2.4 Posterior predictive distribution 后验预测分布

再来重新考虑一开始提到的后验预测分布,现在我们可以用后验公式来计算某测试数字 xˆ 是否属于概念 C 的概率,如下:

p(x˜C|D)=hp(y=1|x˜,h)p(h|D)
其实这个公式是说,把每个假设(hypothesis,如素数集,偶数集等)的后验加权,得到一个概率。权重也是人为给出的。这种给出后验预测分布的方法称作是贝叶斯模型平均(Beyes model averaging)。

随着数据集的增大,后验为以最大后验估计为中心的 delta 函数(脉冲),因此有:

p(x˜C|D)=hp(x˜|h)δhˆ(h)=p(x˜|hˆ)
即,直接用概率最大的那个假设的结果当做最终结果,而非前面的全部假设都有一个权重参与进来。显然这样做会简单一些,但是容易小样本过拟合。

3.2.5 A more complex prior 一个更复杂的先验

在数字游戏中,作者用了两种先验,并用参数 π 1π 把两个先验串起来。

3.3 The beta-binomial model 贝塔-二项式模型

下面考虑连续随机变量中的贝叶斯推断问题,但是这次我们用一个扔硬币的例子。

3.3.1 Likelihood 似然

似然函数就是某种假设前提下,一系列事件发生的概率。比如连续扔 N 次的硬币,每次扔硬币这个事件是独立同分布的(比如都是伯努利分布),所以这 N 次扔硬币发生的概率就是似然概率,如下:

p(D|θ)=θN1(1θ)N0

其中离散随机变量 XiBer(θ) ,而 Xi=1 表示硬币正面朝上, Xi=0 则相反; θ 表示硬币正面朝上的概率。假设投了 N 次硬币,得到 N1=Ni=1I(Xi=1) 次正面朝上,得到 N0=Ni=1I(Xi=0) 次反面朝上。

此外,这两个数可以称作是数据集的充分统计量(sufficient statistics),表示为 D={ N1,N0} 。当然,也可以是 N1 N=N1+N2 ,即 D

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值