第六章 逻辑回归与最大熵模型
逻辑回归和最大熵模型都是对数线性模型;
模型的学习就是在给定的训练数据集下对模型(这里是
条
件
概
率
分
布
\color{red}{条件概率分布}
条件概率分布)进行
极
大
似
然
估
计
\color{red}{极大似然估计}
极大似然估计;
逻辑回归模型:
P ( Y = k ∣ x ) = e w k ⋅ x 1 + ∑ k = 1 K − 1 e w k ⋅ x , k = 1 , 2 , 3 , . . . , K − 1 ; P(Y=k|x)=\frac{e^{w_k\cdot{x}}}{1+\displaystyle\sum_{k=1}^{K-1}e^{w_k\cdot{x}}},k =1,2,3,...,K-1; P(Y=k∣x)=1+k=1∑K−1ewk⋅xewk⋅x,k=1,2,3,...,K−1;
P ( Y = K ∣ x ) = 1 1 + ∑ k = 1 K − 1 e w k ⋅ x P(Y=K|x)=\frac{1}{1+\displaystyle\sum_{k=1}^{K-1}e^{w_k\cdot{x}}} P(Y=K∣x)=1+k=1∑K−1ewk⋅x1
这里,
(
x
,
w
k
)
∈
R
n
+
1
(x,w_k)\in{R^{n+1}}
(x,wk)∈Rn+1;
当K =2 时,就是二项逻辑回归;
二项逻辑回归模型参数的估计:
L
(
w
)
=
∑
i
=
1
n
[
y
i
l
o
g
(
h
(
x
i
)
+
(
1
−
y
i
)
l
o
g
(
1
−
h
(
x
i
)
]
=
∑
i
=
1
n
[
y
i
(
w
⋅
x
i
)
−
l
o
g
(
1
+
e
w
⋅
x
i
]
L(w)=\displaystyle\sum_{i=1}^{n}[y_ilog(h(x_i)+(1-y_i)log(1-h(x_i)] =\displaystyle\sum_{i=1}^n[y_i(w\cdot{x_i})-log(1+e^{w\cdot{x_i}}]
L(w)=i=1∑n[yilog(h(xi)+(1−yi)log(1−h(xi)]=i=1∑n[yi(w⋅xi)−log(1+ew⋅xi]
这里h(x) 为sigmoid 函数,即上述公式中的模型;可以通过对L(w)求解最大值或者-L(w)的最小值来求解w,可以运用梯度下降、拟牛顿法等进行优化;
最大熵模型:
一般形式:
P w ( y ∣ x ) = 1 Z w ( x ) e x p ( ∑ i = 1 n w i f i ( x , y ) ) ; P_w(y|x)=\frac{1}{Z_w(x)}exp(\displaystyle\sum_{i=1}^{n}w_if_i(x,y)); Pw(y∣x)=Zw(x)1exp(i=1∑nwifi(x,y));
Z
w
(
x
)
=
∑
y
e
x
p
∑
i
=
1
n
w
i
f
i
(
x
,
y
)
)
;
Z_w(x)=\displaystyle\sum_yexp\sum_{i=1}^{n}w_if_i(x,y));
Zw(x)=y∑expi=1∑nwifi(x,y));
上式中的
f
i
(
x
,
y
)
f_i(x,y)
fi(x,y)为x,y满足的任意实值函数(条件);
最大熵模型的思想就是:
对于训练集D,其输出Y的条件概率分布熵值最大时,认为是最优的解,最大熵的学习目的就是求解能使条件熵最大的那个模型(也就是Y的条件概率分布);
最大熵分类模型中存在下列约束优化问题:
m i n − H ( P ) = ∑ ( x , y ) P ~ ( x ) P ( y ∣ x ) l o g ( P ( y ∣ x ) ) , min -H(P)=\displaystyle\sum_{(x,y)}\tilde{P}(x)P(y|x)log(P(y|x)), min−H(P)=(x,y)∑P~(x)P(y∣x)log(P(y∣x)),
s . t . E P ( f i ) = E P ~ ( f i ) ; ∑ y P ( y ∣ x ) = 1 ; s.t. E_P(f_i)=E_{\tilde{P}}(f_i);\displaystyle\sum_yP(y|x)=1; s.t.EP(fi)=EP~(fi);y∑P(y∣x)=1;(约束条件)
其中 E P ( f i ) = ∑ ( x , y ) P ~ ( x ) P ( y ∣ x ) f ( x , y ) , E_P(f_i)=\displaystyle\sum_{(x,y)}\tilde{P}(x)P(y|x)f(x,y), EP(fi)=(x,y)∑P~(x)P(y∣x)f(x,y),为特征函数f关于模型P(Y|X)和经验分布 P ~ ( X ) \tilde{P}(X) P~(X)的期望;
E P ~ ( f i ) = ∑ ( x , y ) P ~ ( x , y ) f ( x , y ) E_{\tilde{P}}(f_i)=\displaystyle\sum_{(x,y)}\tilde{P}(x,y)f(x,y) EP~(fi)=(x,y)∑P~(x,y)f(x,y),为特征函数f关于经验分布 P ~ ( x , y ) \tilde{P}(x,y) P~(x,y)的期望;
- 因为优化问题为有约束条件的优化问题,所以使用广义拉格朗日乘数法来转化为无条件的最优化问题;
- 然后将原始问题转化为求解对偶问题(极大极小问题转为极小极大问题),对于凸优化问题来说,二者的解是相同的;
- 求解出了最大熵模型 P w ( y ∣ x ) P_w(y|x) Pw(y∣x)之后,代入到对偶函数中,然后采用优化方法(梯度下降、牛顿法、改进的迭代尺度法)来求得w的值,最后反代入最大熵模型,求得最终的模型