对数线性模型（Log-Linear Model）一种判别式模型的创建框架

HadesZ~

已于 2022-02-15 22:57:13 修改

阅读量3.8k

点赞数 2

分类专栏：机器学习笔记文章标签：机器学习深度学习概率论

于 2022-02-13 14:37:44 首次发布

本文链接：https://blog.csdn.net/xunyishuai5020/article/details/122905142

版权

机器学习笔记专栏收录该内容

11 篇文章

订阅专栏

Log-Linear Model是一种判别式模型算法的创建框架，它并不指某种特定的模型、它指的是一类模型。

1. 定义

设模型预测共考虑 $J$ 种特征， $\cdots, J$ ； $w_j$ 表示模型对第 $j$ 种特征的参数，其取值在模型训练过程中估计得到； $F_j(X, y)$ 表示模型第 $j$ 种特征的特征函数（feature function），它表达特征 $X$ 和标签 $y$ 之间的一些关系，其因变量为用于模型预测的第 $j$ 个特征； $Z (X, W)$ 表示模型特征预测值的归一化系数，它被称作 normalization term 或 partion function。在此条件下，模型的目标函数可表示成如下所示：
$P(y|\ X;W) = \frac{exp[\sum_{j=1}^{J} w_jF_j(X, y)]}{Z(X,W)} \tag{1}$

模型中，每种特征的特征函数（feature function）由人工设定，给定不同的特征函数可以衍生出不同种类的模型，创建 feature function 是一个特征工程的过程。当人工给定 feature function 时，是一机器学习过程，当通过自动特征机制给定 feature function 时，是深度学习过程。

$Z (X, W)$ 等于标签所有可能类别的分子项之和，即 $\sum_{i=1}^{C}exp[\sum_{j=1}^{J} w_jF_j(X, y = c_i)]$ ，其作用是将分子项归一化，令分数式结果满足条件概率性质。

2. 衍生模型

2.1 衍生逻辑回归模型

设所有可能的标签的集合为 $\{c_1, c_2, \cdots, c_N\}$ 、输入特征 $X$ 是一个长度为 $J$ 的向量 $X=(x_1, x_2, \cdots, x_d)$ 。那么给定 $F_j(X, y) = x_j \cdot I(y=c_i)$ ， $I(y=c_i)$ 是 indicator function，当 $y=c_i$ 时 indicator function 的值为1，否则为0。所以，得到模型目标函数为：

$P(y=c_i|\ X;W) = \frac{ exp \begin{bmatrix} \sum_{j=1 + d(i-1)}^{d+d(i-1)} w_jx_{j-d(i-1)} \end{bmatrix} }{ \sum_{i=1}^{C} exp \begin{bmatrix} \sum_{j=1 + d(i-1)}^{d+d(i-1)} w_jx_{j-d(i-1)} \end{bmatrix} } \tag{2}$

式中模型参数 $\in R^{3d}$ ，参数向量 $(w_1, w_2, \cdots, w_d, w_{d+1}, \cdots, w_{2d}, \cdots,w_{1+d(C-1), \cdots, w_{d+ d(C-1)}})$ ；我们将参数向量中的子向量 $(w_{1 + d(i-1)}, \cdots, w_{d + d(i-1)})$ 记作 $W_{i}$ ，所以参数向量可改写成 $W=(W_{1}, W_{2}, \cdots, W_{C})$ ，将其带入 $式 (2)$ 后可将模型目标函数简写为：

$P(y=c_i|\ X;W) = \frac{ exp [W_{i}^T \cdot X] }{ \sum_{i=1}^{C} exp [W_{i}^T \cdot X] } \tag{3}$
显然， $式 (3)$ 等价于 $P(y|\ X;W) = Softmax(W^TX)$ ；至此，我们由 Log-Linear Model 衍生出了多分类逻辑回归模型（Multinomial Logistic Regression）。

2.2 衍生CRF模型

同理，设 $\bar{X}$ 是一个长度为 $T$ 的可观测特征序列， $\bar{y}$ 是其对应的标签序列，若给定 $F_j(X, y) = \sum_{t=2}^{T} f_t(y_{t-1}, y_t, \bar{X}, t)$ ，则可得到 Linera CRF 模型的目标函数：

$P(\bar{y}|\ \bar{X};W) = \frac{1}{Z(X,W)}exp \begin{bmatrix} \sum_{t=2}^{T} f_t(y_{t-1}, y_t, \bar{X}, t) \end{bmatrix} \tag{4}$

3. 参数估计方法

概率模型的目的是最大化标签在特征条件下的概率分布 $P (y ∣ X; W)$ 。所以模型参数的极大似然估计为：
$\hat{w}_j = \argmax_{w_j} P(y|\ X; W) = \argmax_{w_j} \frac{exp[\sum_{j=1}^{J} w_jF_j(X, y)]}{Z(X,W)} \tag{5}$
因为对数在定义域上单调递增，所以用其简化 $P(y|\ X;W)$ 表达式，不影响对模型参数的极大似然估计。因此， $式 (5)$ 可简化为：

$\hat{w}_j = \argmax_{w_j} log[\frac{exp[\sum_{j=1}^{J} w_jF_j(X, y)]}{Z(X,W)}] = \argmax_{w_j} \sum_{j=1}^{J} w_jF_j(X, y) - log[Z(X,W)] \tag{6}$
对 $式 (6)$ 求关于 $w_j$ 的偏导数，得到：

$\frac{\partial}{\partial w_j }[\sum_{j=1}^{J} w_jF_j(X, y) - log(Z(X,W))] = F_j(X, y) - \frac{1}{Z(X, W)} \cdot \frac{\partial Z(X, W) }{\partial w_j } \tag{7}$

$式 (7)$ 中 $\sum_{i=1}^{C} exp[\sum_{j=1}^{J} w_jF_j(X, y=c_i)]$ ，所以 $Z (X, W)$ 关于 $w_j$ 的偏导数等于：

$\frac{\partial Z(X, W) }{\partial w_j } = \sum_{i=1}^{C} exp[\sum_{j=1}^{J} w_jF_j(X, y=c_i)] \cdot F_j(X, y=c_i) \tag{8}$

将 $式 (8)$ 带入 $式 (7)$ 后得到：

$\frac{\partial log[P(y|\ X; W)]}{\partial w_j } = F_j(X, y) - \frac{1}{Z(X, W)} \cdot \sum_{i=1}^{C} \{ F_j(X, y=c_i) \cdot exp[\sum_{j=1}^{J} w_jF_j(X, y=c_i)] \}$ $\frac{\partial log[P(y|\ X; W)]}{\partial w_j } = F_j(X, y) - \sum_{i=1}^{C} F_j(X, y=c_i) \cdot \frac{exp[\sum_{j=1}^{J} w_jF_j(X, y=c_i)]}{Z(X, W)}$ $\frac{\partial log[P(y|\ X; W)]}{\partial w_j } = F_j(X, y) - \sum_{i=1}^{C} F_j(X, y=c_i) \cdot P(y=c_i | X; W) \tag{9}$
$式 (9)$ 可进一步简写成数学期望的形式：