统计学习II.7 广义线性模型1 指数分布族
这一部分介绍广义线性模型,这是一类监督学习方法,通常用来构造分类器等。考虑 { ( X i , Y i ) } i = 1 N \{(X_i,Y_i)\}_{i=1}^N { (Xi,Yi)}i=1N,广义线性模型通常假设 Y i Y_i Yi服从某种指数分布族。因此这一部分先介绍指数分布族,然后介绍基于不同指数分布族导出的广义线性模型的不同效果。
指数分布族的定义
用 p ( x ∣ θ ) p(x|\theta) p(x∣θ)表示某个密度函数,称它是指数分布族(exponential family)如果:
p ( x ∣ θ ) = h ( x ) exp ( θ T ϕ ( x ) − A ( θ ) ) p(x|\theta) = h(x)\exp(\theta^T \phi(x)-A(\theta)) p(x∣θ)=h(x)exp(θTϕ(x)−A(θ))
根据密度函数的归一性,
∫ p ( x ∣ θ ) d x = ∫ h ( x ) exp ( θ T ϕ ( x ) − A ( θ ) ) d x = exp ( − A ( θ ) ) ∫ h ( x ) exp ( θ T ϕ ( x ) ) d x = 1 \int p(x|\theta)dx =\int h(x)\exp(\theta^T \phi(x)-A(\theta))dx \\ = \exp(-A(\theta))\int h(x)\exp(\theta^T \phi(x))dx =1 ∫p(x∣θ)dx=∫h(x)exp(θTϕ(x)−A(θ))dx=exp(−A(θ))∫h(x)exp(θTϕ(x))dx=1
于是
A ( θ ) = log Z ( θ ) , Z ( θ ) = ∫ h ( x ) exp ( θ T ϕ ( x ) ) d x A(\theta)=\log Z(\theta), Z(\theta)=\int h(x)\exp(\theta^T\phi(x))dx A(θ)=logZ(θ),Z(θ)=∫h(x)exp(θTϕ(x))dx
其中 θ \theta θ被称为natural parameter, ϕ ( X ) \phi(X) ϕ(X)是这个指数族的充分统计量(基于Fisher-Neyman定理), Z ( θ ) Z(\theta) Z(θ)是partition function, A ( θ ) A(\theta) A(θ)是cumulant function,如果 ϕ ( X ) = X \phi(X)=X ϕ(X)=X,称这样的指数族为自然指数族(natural exponential family)。
指数分布的另一种形式为
p ( x ∣ θ ) = h ( x ) exp ( η ( θ ) T ϕ ( x ) − A ( η ( θ ) ) ) p(x|\theta) = h(x)\exp(\eta(\theta)^T \phi(x)-A(\eta(\theta))) p(x∣θ)=h(x)exp(η(θ)Tϕ(x)−A(η(θ)))如果 dim ( θ ) < dim ( η ( θ ) ) \dim(\theta)<\dim(\eta(\theta)) dim(θ)<dim(η(θ)),称之为curved exponential family,此时充分统计量的数目比参数多;如果 dim ( θ ) = dim ( η ( θ ) ) \dim(\theta)=\dim(\eta(\theta)) dim(θ)=dim(η(θ)),称之为canonical form;
指数分布族的例子
Bernoulli分布
p ( x ∣ μ ) = μ x ( 1 − μ ) 1 − x = exp ( ϕ ( x ) T θ ) p(x|\mu)=\mu^x(1-\mu)^{1-x}=\exp(\phi(x)^T\theta) p(x∣μ)=μx(1−μ)1−x=exp(ϕ(x)Tθ)
其中
ϕ ( x ) = [ 1 x = 0 , 1 x = 1 ] T , θ = [ log ( μ ) , log ( 1 − μ ) ] T \phi(x)=[1_{x=0},1_{x=1}]^T,\theta=[\log(\mu),\log(1-\mu)]^T ϕ(x)=[1x=0,1x