9.1 Introduction
前面讲过的很多概率分布其实都是属于指数家族簇,比如高斯,伯努利,泊松,狄利克雷分布等。当然,要除掉均匀分布和学生 t 分布。我们可以用指数家族分布来表示 class-conditional density,由此建立广义线性模型(GLM, Generalized Linear Model)这个生成分类器。
9.2 The exponential family 指数家族
指数家族之所以重要,主要是因为下面几点,
- 指数家族是唯一的充分统计量是有限大小的分布家族
- 指数家族是唯一存在共轭先验的分布家族
- 指数家族在认为选定限制下作的假设最少的分布家族
- 指数家族是广义线性模型的核心内容
- 指数家族是变分推断(variational inference)的核心内容
9.2.1 Definition 定义
对于输入数据 x=(x1,⋯,xm)∈Xm ,参数 θ∈Θ⊆Rd ,指数家族的概率密度函数(pdf)或者概率质量函数(pmf)定义如下,
p(x|θ)=1Z(θ)h(x)exp[θTϕ(x)]
其中
Z(θ)=∫Xmh(x)exp[θTϕ(x)]dx
表示归一化项,有时候会放到指数里去,写作
p(x|θ)=h(x)exp[θTϕ(x)−A(θ)],where A(θ)=logZ(θ)
里面的参数含义如下表,
参数 | 名字 | 作用 |
---|---|---|
θ | 自然参数(natural parameters) or 典范参数(canonical parameters) | 参数 |
ϕ(x)∈Rd | 充分统计量(sufficient statistics) | |
Z(θ) | 划分函数(partition function) | 归一化 |
A(θ) | 对数划分函数(log partition function) or 积累函数(cumulant function) | 归一化 |
h(x) | 尺度常数(scaling constant) | 一般取 1 |
当 ϕ(x)=x 时,可以称作是自然指数家族(natural exponential family)。有时候我们用 η=η(θ) 代替 θ ,那么 pdf 重写为,
p(x|θ)=h(x)exp[η(θ)Tϕ(x)−A(η(θ))]
当
dim(θ)<dim(η(θ))
时,称作是 curved exponential family,意思是充分统计量比参数还多。若
η(θ)=θ
,模式是规范形式(canonical form),且一般只讨论这种形式。
9.2.2 Examples
9.2.2.1 Bernoulli
回忆一下伯努利分布的表达式,有离散随机变量 x∈{ 0,1} ,
Ber(x|μ)=μx(1−μ)1−x
若要写成指数家族的标准形式,有两种做法,第一种可以取
ϕ(x)=[I(x=0),I(x=1)],θ=[log(μ),log(1−μ)]
带入指数家族的标准公式得到,
p(x|θ)=exp[θTϕ(x)]=exp[xlog(μ)+(1−x)log(1−μ)]=Ber(x|μ)
然而这种表示是过完备的(over-complete),因为
ϕ(x)
里元素是线性相关的,其实只要一个参数就够了。
因此有另一种取法,令
ϕ(x)=x,θ=logμ1−μ,Z=11−μ
其中
θ
是对数几率(log-odds),
p(x|θ)=(1−μ)exp[xlogμ1−μ]=(1−μ)exp[xlogμ−xlog(1−μ)]=Ber(x|μ)
其中均值参数
μ
和典范参数
θ
之间的转换公式正好是 sigmoid 函数,
μ