MLaPP Chapter 9 GLM and the exponential family 指数家族

本文链接：https://blog.csdn.net/zhangxb35/article/details/54928283

本文深入探讨指数家族分布，包括定义、特点、示例和在广义线性模型（GLMs）中的作用。同时，介绍了GLMs的基本概念、贝叶斯推断、概率回归以及多任务学习的应用，特别关注学习排名问题的各种方法和损失函数。

摘要由CSDN通过智能技术生成

9.1 Introduction

前面讲过的很多概率分布其实都是属于指数家族簇，比如高斯，伯努利，泊松，狄利克雷分布等。当然，要除掉均匀分布和学生 t 分布。我们可以用指数家族分布来表示 class-conditional density，由此建立广义线性模型（GLM, Generalized Linear Model）这个生成分类器。

9.2 The exponential family 指数家族

指数家族之所以重要，主要是因为下面几点，

指数家族是唯一的充分统计量是有限大小的分布家族
指数家族是唯一存在共轭先验的分布家族
指数家族在认为选定限制下作的假设最少的分布家族
指数家族是广义线性模型的核心内容
指数家族是变分推断（variational inference）的核心内容

9.2.1 Definition 定义

对于输入数据 $\mathbf{x} = (x_1, \cdots, x_m) \in \mathcal{X}^m$ ，参数 $\boldsymbol\theta \in \Theta \subseteq \mathbb{R}^d$ ，指数家族的概率密度函数（pdf）或者概率质量函数（pmf）定义如下，

p (x | θ) = 1 Z ( θ ) h (x) exp [θ T ϕ (x)]

$p(\mathbf{x}|\boldsymbol\theta) = \frac1{Z(\boldsymbol\theta)} h(\mathbf{x}) \exp[\boldsymbol\theta^T \phi(\mathbf{x})]$ 其中

Z(θ)=∫Xmh(x)exp[θTϕ(x)]dx $Z(\boldsymbol\theta) = \int_{\mathcal{X}^m} h(\mathbf{x})\exp[\boldsymbol\theta^T \phi(\mathbf{x})]d\mathbf{x}$ 表示归一化项，有时候会放到指数里去，写作

p (x | θ) = h (x) exp [θ T ϕ (x) - A (θ)], where A (θ) = log Z (θ)

$p(\mathbf{x}|\boldsymbol\theta) = h(\mathbf{x}) \exp[\boldsymbol\theta^T \phi(\mathbf{x})- A(\boldsymbol\theta)], \quad \text{where } A(\boldsymbol\theta) = \log Z(\boldsymbol\theta)$

里面的参数含义如下表，

参数	名字	作用
$\boldsymbol\theta$	自然参数（natural parameters） or 典范参数（canonical parameters）	参数
$\phi(\mathbf{x}) \in \mathbb{R}^d$	充分统计量（sufficient statistics）
$Z(\boldsymbol\theta)$	划分函数（partition function）	归一化
$A(\boldsymbol\theta)$	对数划分函数（log partition function） or 积累函数（cumulant function）	归一化
$h(\mathbf{x})$	尺度常数（scaling constant）	一般取 1

当 $\phi(\mathbf{x}) = \mathbf{x}$ 时，可以称作是自然指数家族（natural exponential family）。有时候我们用 $\boldsymbol\eta = \eta(\boldsymbol\theta)$ 代替 $\boldsymbol\theta$ ，那么 pdf 重写为，

p (x | θ) = h (x) exp [η (θ) T ϕ (x) - A (η (θ))]

$p(\mathbf{x}|\boldsymbol\theta) = h(\mathbf{x}) \exp[\eta(\boldsymbol\theta)^T \phi(\mathbf{x})- A(\eta(\boldsymbol\theta))]$ 当

dim(θ)<dim(η(θ)) $\dim(\boldsymbol\theta) < \dim(\eta(\boldsymbol\theta))$ 时，称作是 curved exponential family，意思是充分统计量比参数还多。若

η(θ)=θ $\eta(\boldsymbol\theta) = \boldsymbol\theta$ ，模式是规范形式（canonical form），且一般只讨论这种形式。

9.2.2 Examples

9.2.2.1 Bernoulli

回忆一下伯努利分布的表达式，有离散随机变量 $x \in \{0, 1\}$ ，

Ber (x | μ) = μ x (1 - μ) 1 - x

$\text{Ber}(x|\mu) = \mu^x (1-\mu)^{1-x}$

若要写成指数家族的标准形式，有两种做法，第一种可以取

ϕ (x) = [I (x = 0), I (x = 1)], θ = [log (μ), log (1 - μ)]

$\phi(x) = [\mathbb{I}(x=0), \mathbb{I}(x=1)], \quad \boldsymbol\theta = [\log(\mu), \log(1- \mu)]$ 带入指数家族的标准公式得到，

p (x | θ) = exp [θ T ϕ (x)] = exp [x log (μ) + (1 - x) log (1 - μ)] = Ber (x | μ)

$\begin{align*} p(x|\boldsymbol\theta) & = \exp[\boldsymbol\theta^T\phi(x)] \\ & = \exp[x\log(\mu) + (1-x)\log(1-\mu)]\\ & = \text{Ber}(x|\mu) \end{align*}$ 然而这种表示是过完备的（over-complete），因为

ϕ(x) $\phi(x)$ 里元素是线性相关的，其实只要一个参数就够了。

因此有另一种取法，令

ϕ (x) = x, θ = log μ 1 - μ, Z = 1 1 - μ

$\phi(x) = x, \quad\theta = \log\frac{\mu}{1 - \mu}, \quad Z = \frac1{1-\mu}$ 其中

θ $\theta$ 是对数几率（log-odds），

p (x | θ) = (1 - μ) exp [x log μ 1 - μ] = (1 - μ) exp [x log μ - x log (1 - μ)] = Ber (x | μ)

$\begin{align*} p(x|\boldsymbol\theta) & = (1-\mu)\exp[x \log\frac{\mu}{1 - \mu}] \\ & = (1- \mu) \exp[x\log\mu - x\log(1-\mu)] \\ & = \text{Ber}(x|\mu) \end{align*}$ 其中均值参数

μ $\mu$ 和典范参数

θ $\theta$ 之间的转换公式正好是 sigmoid 函数，