3.1 Introduction
生成模型(generative model)一般会按照下面的贝叶斯公式构造分类器:
中间的 ∝ 符号表示“正比于”,即忽略了常系数。而概率 p(x|y=c,θ) 名字叫做 class-conditional density,后一项概率 p(y=c|θ) 则叫做 class prior。
3.2 Bayesian concept learning 贝叶斯概念学习
概念学习(Concept learning)其实是一个二分类问题,学习的是一个指示函数(Indicator function),但是和二分类问题不同,我们可以仅仅只从正例中学习。
考虑下面一个数字游戏。选择一个简单的数学概念 C ,如奇数,素数等,给定从概念
举个例子,见figure 3.1的第三张图,给定了集合
3.2.1 Likelihood 似然
现在考虑一个问题,给定数据集 D={ 16,8,2,64} ,假设空间(hypothesis space) H 可以取 htwo≜ “power of two”,或者 heven≜ “even number”,然而一般我们会倾向于前一个假设,因为其似然概率最大,这也符合奥卡姆剃刀原理(Occam’s razor),即认为相同表达能力和解释能力的条件下,简单的理论会比复杂的理论更好。
假设我们做一个强采样假设(strong sampling assumption),从概念 C 中抽取一个集合,
3.2.2 Prior 先验
同样对于集合 D={ 16,8,2,64} ,根据上面的似然概率,假设 h′= “powers of two except 32” 的概率应该会更大,但是我们可以从“经验”上判断,这个概念有点不自然。这个主观上的(subjective)信息,称为先验,一般代表了该问题的背景知识。
3.2.3 Posterior 后验
后验就是似然乘以先验,再做一个归一化,如下:
当数据量足够大时,后验概率 p(h|D) 会趋向最大后验估计(MAP estimate, maximum a posterior estimation),如
后验概率公式可以继续写下去,
3.2.4 Posterior predictive distribution 后验预测分布
再来重新考虑一开始提到的后验预测分布,现在我们可以用后验公式来计算某测试数字 xˆ 是否属于概念 C 的概率,如下:
随着数据集的增大,后验为以最大后验估计为中心的 delta 函数(脉冲),因此有:
3.2.5 A more complex prior 一个更复杂的先验
在数字游戏中,作者用了两种先验,并用参数 π 和 1−π 把两个先验串起来。
3.3 The beta-binomial model 贝塔-二项式模型
下面考虑连续随机变量中的贝叶斯推断问题,但是这次我们用一个扔硬币的例子。
3.3.1 Likelihood 似然
似然函数就是某种假设前提下,一系列事件发生的概率。比如连续扔 N 次的硬币,每次扔硬币这个事件是独立同分布的(比如都是伯努利分布),所以这
其中离散随机变量 Xi∼Ber(θ) ,而 Xi=1 表示硬币正面朝上, Xi=0 则相反; θ 表示硬币正面朝上的概率。假设投了 N 次硬币,得到
此外,这两个数可以称作是数据集的充分统计量(sufficient statistics),表示为 D={ N1,N0} 。当然,也可以是 N1 和 N=N1+N2 ,即 D