对数线性模型(Log-Linear Model)一种判别式模型的创建框架

Log-Linear Model是一种判别式模型算法的创建框架,它并不指某种特定的模型、它指的是一类模型。

1. 定义

设模型预测共考虑 J J J 种特征, j = 1 , 2 , ⋯   , J j=1,2, \cdots, J j=1,2,,J w j w_j wj 表示模型对第 j j j 种特征的参数,其取值在模型训练过程中估计得到; F j ( X , y ) F_j(X, y) Fj(X,y) 表示模型第 j j j 种特征的特征函数(feature function),它表达特征 X X X 和标签 y y y 之间的一些关系,其因变量为用于模型预测的第 j j j 个特征; Z ( X , W ) Z(X,W) Z(X,W) 表示模型特征预测值的归一化系数,它被称作 normalization term 或 partion function。在此条件下,模型的目标函数可表示成如下所示:
P ( y ∣   X ; W ) = e x p [ ∑ j = 1 J w j F j ( X , y ) ] Z ( X , W ) (1) P(y|\ X;W) = \frac{exp[\sum_{j=1}^{J} w_jF_j(X, y)]}{Z(X,W)} \tag{1} P(y X;W)=Z(X,W)exp[j=1JwjFj(X,y)](1)

模型中,每种特征的特征函数(feature function)由人工设定,给定不同的特征函数可以衍生出不同种类的模型,创建 feature function 是一个特征工程的过程。当人工给定 feature function 时,是一机器学习过程,当通过自动特征机制给定 feature function 时,是深度学习过程。

Z ( X , W ) Z(X,W) Z(X,W) 等于标签所有可能类别的分子项之和,即 Z ( X , W ) = ∑ i = 1 C e x p [ ∑ j = 1 J w j F j ( X , y = c i ) ] Z(X,W) = \sum_{i=1}^{C}exp[\sum_{j=1}^{J} w_jF_j(X, y = c_i)] Z(X,W)=i=1Cexp[j=1JwjFj(X,y=ci)],其作用是将分子项归一化,令分数式结果满足条件概率性质。

2. 衍生模型

2.1 衍生逻辑回归模型

设所有可能的标签的集合为 C = { c 1 , c 2 , ⋯   , c N } C = \{c_1, c_2, \cdots, c_N\} C={c1,c2,,cN}、输入特征 X X X 是一个长度为 J J J 的向量 X = ( x 1 , x 2 , ⋯   , x d ) X=(x_1, x_2, \cdots, x_d) X=(x1,x2,,xd)。那么给定 F j ( X , y ) = x j ⋅ I ( y = c i ) F_j(X, y) = x_j \cdot I(y=c_i) Fj(X,y)=xjI(y=ci) I ( y = c i ) I(y=c_i) I(y=ci) 是 indicator function,当 y = c i y=c_i y=ci 时 indicator function 的值为1,否则为0。所以,得到模型目标函数为:

P ( y = c i ∣   X ; W ) = e x p [ ∑ j = 1 + d ( i − 1 ) d + d ( i − 1 ) w j x j − d ( i − 1 ) ] ∑ i = 1 C e x p [ ∑ j = 1 + d ( i − 1 ) d + d ( i − 1 ) w j x j − d ( i − 1 ) ] (2) P(y=c_i|\ X;W) = \frac{ exp \begin{bmatrix} \sum_{j=1 + d(i-1)}^{d+d(i-1)} w_jx_{j-d(i-1)} \end{bmatrix} }{ \sum_{i=1}^{C} exp \begin{bmatrix} \sum_{j=1 + d(i-1)}^{d+d(i-1)} w_jx_{j-d(i-1)} \end{bmatrix} } \tag{2} P(y=ci X;W)=i=1Cexp[j=1+d(i1)d+d(i1)wjxjd(i1)]exp[j=1+d(i1)d+d(i1)wjxjd(i1)](2)

式中模型参数 w j ∈ R 3 d wj \in R^{3d} wjR3d,参数向量 W = ( w 1 , w 2 , ⋯   , w d , w d + 1 , ⋯   , w 2 d , ⋯   , w 1 + d ( C − 1 ) , ⋯   , w d + d ( C − 1 ) ) W = (w_1, w_2, \cdots, w_d, w_{d+1}, \cdots, w_{2d}, \cdots,w_{1+d(C-1), \cdots, w_{d+ d(C-1)}}) W=(w1,w2,,wd,wd+1,,w2d,,w1+d(C1),,wd+d(C1));我们将参数向量中的子向量 ( w 1 + d ( i − 1 ) , ⋯   , w d + d ( i − 1 ) ) (w_{1 + d(i-1)}, \cdots, w_{d + d(i-1)}) (w1+d(i1),,wd+d(i1)) 记作 W i W_{i} Wi,所以参数向量可改写成 W = ( W 1 , W 2 , ⋯   , W C ) W=(W_{1}, W_{2}, \cdots, W_{C}) W=(W1,W2,,WC),将其带入 式 ( 2 ) 式(2) (2)后可将模型目标函数简写为:

P ( y = c i ∣   X ; W ) = e x p [ W i T ⋅ X ] ∑ i = 1 C e x p [ W i T ⋅ X ] (3) P(y=c_i|\ X;W) = \frac{ exp [W_{i}^T \cdot X] }{ \sum_{i=1}^{C} exp [W_{i}^T \cdot X] } \tag{3} P(y=ci X;W)=i=1Cexp[WiTX]exp[WiTX](3)
显然, 式 ( 3 ) 式(3) (3) 等价于 P ( y ∣   X ; W ) = S o f t m a x ( W T X ) P(y|\ X;W) = Softmax(W^TX) P(y X;W)=Softmax(WTX);至此,我们由 Log-Linear Model 衍生出了多分类逻辑回归模型(Multinomial Logistic Regression)。

2.2 衍生CRF模型

同理,设 X ˉ \bar{X} Xˉ 是一个长度为 T T T 的可观测特征序列, y ˉ \bar{y} yˉ 是其对应的标签序列,若给定 F j ( X , y ) = ∑ t = 2 T f t ( y t − 1 , y t , X ˉ , t ) F_j(X, y) = \sum_{t=2}^{T} f_t(y_{t-1}, y_t, \bar{X}, t) Fj(X,y)=t=2Tft(yt1,yt,Xˉ,t) ,则可得到 Linera CRF 模型的目标函数:

P ( y ˉ ∣   X ˉ ; W ) = 1 Z ( X , W ) e x p [ ∑ t = 2 T f t ( y t − 1 , y t , X ˉ , t ) ] (4) P(\bar{y}|\ \bar{X};W) = \frac{1}{Z(X,W)}exp \begin{bmatrix} \sum_{t=2}^{T} f_t(y_{t-1}, y_t, \bar{X}, t) \end{bmatrix} \tag{4} P(yˉ Xˉ;W)=Z(X,W)1exp[t=2Tft(yt1,yt,Xˉ,t)](4)

3. 参数估计方法

概率模型的目的是最大化标签在特征条件下的概率分布 P ( y ∣ X ; W ) P(y | X; W) P(yX;W)。所以模型参数的极大似然估计为:
w ^ j = arg max ⁡ w j P ( y ∣   X ; W ) = arg max ⁡ w j e x p [ ∑ j = 1 J w j F j ( X , y ) ] Z ( X , W ) (5) \hat{w}_j = \argmax_{w_j} P(y|\ X; W) = \argmax_{w_j} \frac{exp[\sum_{j=1}^{J} w_jF_j(X, y)]}{Z(X,W)} \tag{5} w^j=wjargmaxP(y X;W)=wjargmaxZ(X,W)exp[j=1JwjFj(X,y)](5)
因为对数在定义域上单调递增,所以用其简化 P ( y ∣   X ; W ) P(y|\ X;W) P(y X;W) 表达式,不影响对模型参数的极大似然估计。因此, 式 ( 5 ) 式(5) (5)可简化为:

w ^ j = arg max ⁡ w j l o g [ e x p [ ∑ j = 1 J w j F j ( X , y ) ] Z ( X , W ) ] = arg max ⁡ w j ∑ j = 1 J w j F j ( X , y ) − l o g [ Z ( X , W ) ] (6) \hat{w}_j = \argmax_{w_j} log[\frac{exp[\sum_{j=1}^{J} w_jF_j(X, y)]}{Z(X,W)}] = \argmax_{w_j} \sum_{j=1}^{J} w_jF_j(X, y) - log[Z(X,W)] \tag{6} w^j=wjargmaxlog[Z(X,W)exp[j=1JwjFj(X,y)]]=wjargmaxj=1JwjFj(X,y)log[Z(X,W)](6)
式 ( 6 ) 式(6) (6)求关于 w j w_j wj 的偏导数,得到:

∂ ∂ w j [ ∑ j = 1 J w j F j ( X , y ) − l o g ( Z ( X , W ) ) ] = F j ( X , y ) − 1 Z ( X , W ) ⋅ ∂ Z ( X , W ) ∂ w j (7) \frac{\partial}{\partial w_j }[\sum_{j=1}^{J} w_jF_j(X, y) - log(Z(X,W))] = F_j(X, y) - \frac{1}{Z(X, W)} \cdot \frac{\partial Z(X, W) }{\partial w_j } \tag{7} wj[j=1JwjFj(X,y)log(Z(X,W))]=Fj(X,y)Z(X,W)1wjZ(X,W)(7)

式 ( 7 ) 式(7) (7) Z ( X , W ) = ∑ i = 1 C e x p [ ∑ j = 1 J w j F j ( X , y = c i ) ] Z(X,W) = \sum_{i=1}^{C} exp[\sum_{j=1}^{J} w_jF_j(X, y=c_i)] Z(X,W)=i=1Cexp[j=1JwjFj(X,y=ci)],所以 Z ( X , W ) Z(X, W) Z(X,W) 关于 w j w_j wj 的偏导数等于:

∂ Z ( X , W ) ∂ w j = ∑ i = 1 C e x p [ ∑ j = 1 J w j F j ( X , y = c i ) ] ⋅ F j ( X , y = c i ) (8) \frac{\partial Z(X, W) }{\partial w_j } = \sum_{i=1}^{C} exp[\sum_{j=1}^{J} w_jF_j(X, y=c_i)] \cdot F_j(X, y=c_i) \tag{8} wjZ(X,W)=i=1Cexp[j=1JwjFj(X,y=ci)]Fj(X,y=ci)(8)

式 ( 8 ) 式(8) (8)带入 式 ( 7 ) 式(7) (7)后得到:

∂ l o g [ P ( y ∣   X ; W ) ] ∂ w j = F j ( X , y ) − 1 Z ( X , W ) ⋅ ∑ i = 1 C { F j ( X , y = c i ) ⋅ e x p [ ∑ j = 1 J w j F j ( X , y = c i ) ] } \frac{\partial log[P(y|\ X; W)]}{\partial w_j } = F_j(X, y) - \frac{1}{Z(X, W)} \cdot \sum_{i=1}^{C} \{ F_j(X, y=c_i) \cdot exp[\sum_{j=1}^{J} w_jF_j(X, y=c_i)] \} wjlog[P(y X;W)]=Fj(X,y)Z(X,W)1i=1C{Fj(X,y=ci)exp[j=1JwjFj(X,y=ci)]} ∂ l o g [ P ( y ∣   X ; W ) ] ∂ w j = F j ( X , y ) − ∑ i = 1 C F j ( X , y = c i ) ⋅ e x p [ ∑ j = 1 J w j F j ( X , y = c i ) ] Z ( X , W ) \frac{\partial log[P(y|\ X; W)]}{\partial w_j } = F_j(X, y) - \sum_{i=1}^{C} F_j(X, y=c_i) \cdot \frac{exp[\sum_{j=1}^{J} w_jF_j(X, y=c_i)]}{Z(X, W)} wjlog[P(y X;W)]=Fj(X,y)i=1CFj(X,y=ci)Z(X,W)exp[j=1JwjFj(X,y=ci)] ∂ l o g [ P ( y ∣   X ; W ) ] ∂ w j = F j ( X , y ) − ∑ i = 1 C F j ( X , y = c i ) ⋅ P ( y = c i ∣ X ; W ) (9) \frac{\partial log[P(y|\ X; W)]}{\partial w_j } = F_j(X, y) - \sum_{i=1}^{C} F_j(X, y=c_i) \cdot P(y=c_i | X; W) \tag{9} wjlog[P(y X;W)]=Fj(X,y)i=1CFj(X,y=ci)P(y=ciX;W)(9)
式 ( 9 ) 式(9) (9)可进一步简写成数学期望的形式:

∂ l o g [ P ( y ∣   X ; W ) ] ∂ w j = F j ( X , y ) − E y i ∼ P ( y = c i ∣ X ; W ) [ F j ( X , y i ) ] (10) \frac{\partial log[P(y|\ X; W)]}{\partial w_j } = F_j(X, y) - E_{y_i \sim P(y = c_i | X; W)}[F_j(X, y_i)] \tag{10} wjlog[P(y X;W)]=Fj(X,y)EyiP(y=ciX;W)[Fj(X,yi)](10)

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值