统计学习方法学习笔记:第六章.逻辑回归与最大熵模型

第六章 逻辑回归与最大熵模型

逻辑回归和最大熵模型都是对数线性模型
模型的学习就是在给定的训练数据集下对模型(这里是 条 件 概 率 分 布 \color{red}{条件概率分布} )进行 极 大 似 然 估 计 \color{red}{极大似然估计}

逻辑回归模型:

P ( Y = k ∣ x ) = e w k ⋅ x 1 + ∑ k = 1 K − 1 e w k ⋅ x , k = 1 , 2 , 3 , . . . , K − 1 ; P(Y=k|x)=\frac{e^{w_k\cdot{x}}}{1+\displaystyle\sum_{k=1}^{K-1}e^{w_k\cdot{x}}},k =1,2,3,...,K-1; P(Y=kx)=1+k=1K1ewkxewkx,k=1,2,3,...,K1;

P ( Y = K ∣ x ) = 1 1 + ∑ k = 1 K − 1 e w k ⋅ x P(Y=K|x)=\frac{1}{1+\displaystyle\sum_{k=1}^{K-1}e^{w_k\cdot{x}}} P(Y=Kx)=1+k=1K1ewkx1

这里, ( x , w k ) ∈ R n + 1 (x,w_k)\in{R^{n+1}} (x,wk)Rn+1
当K =2 时,就是二项逻辑回归;
二项逻辑回归模型参数的估计:
L ( w ) = ∑ i = 1 n [ y i l o g ( h ( x i ) + ( 1 − y i ) l o g ( 1 − h ( x i ) ] = ∑ i = 1 n [ y i ( w ⋅ x i ) − l o g ( 1 + e w ⋅ x i ] L(w)=\displaystyle\sum_{i=1}^{n}[y_ilog(h(x_i)+(1-y_i)log(1-h(x_i)] =\displaystyle\sum_{i=1}^n[y_i(w\cdot{x_i})-log(1+e^{w\cdot{x_i}}] L(w)=i=1n[yilog(h(xi)+(1yi)log(1h(xi)]=i=1n[yi(wxi)log(1+ewxi]
这里h(x) 为sigmoid 函数,即上述公式中的模型;可以通过对L(w)求解最大值或者-L(w)的最小值来求解w,可以运用梯度下降、拟牛顿法等进行优化;

最大熵模型:

一般形式:

P w ( y ∣ x ) = 1 Z w ( x ) e x p ( ∑ i = 1 n w i f i ( x , y ) ) ; P_w(y|x)=\frac{1}{Z_w(x)}exp(\displaystyle\sum_{i=1}^{n}w_if_i(x,y)); Pw(yx)=Zw(x)1exp(i=1nwifi(x,y));

Z w ( x ) = ∑ y e x p ∑ i = 1 n w i f i ( x , y ) ) ; Z_w(x)=\displaystyle\sum_yexp\sum_{i=1}^{n}w_if_i(x,y)); Zw(x)=yexpi=1nwifi(x,y));
上式中的 f i ( x , y ) f_i(x,y) fi(x,y)为x,y满足的任意实值函数(条件);

最大熵模型的思想就是:

对于训练集D,其输出Y的条件概率分布熵值最大时,认为是最优的解,最大熵的学习目的就是求解能使条件熵最大的那个模型(也就是Y的条件概率分布);

最大熵分类模型中存在下列约束优化问题:

m i n − H ( P ) = ∑ ( x , y ) P ~ ( x ) P ( y ∣ x ) l o g ( P ( y ∣ x ) ) , min -H(P)=\displaystyle\sum_{(x,y)}\tilde{P}(x)P(y|x)log(P(y|x)), minH(P)=(x,y)P~(x)P(yx)log(P(yx)),

s . t . E P ( f i ) = E P ~ ( f i ) ; ∑ y P ( y ∣ x ) = 1 ; s.t. E_P(f_i)=E_{\tilde{P}}(f_i);\displaystyle\sum_yP(y|x)=1; s.t.EP(fi)=EP~(fi);yP(yx)=1;(约束条件)

其中 E P ( f i ) = ∑ ( x , y ) P ~ ( x ) P ( y ∣ x ) f ( x , y ) , E_P(f_i)=\displaystyle\sum_{(x,y)}\tilde{P}(x)P(y|x)f(x,y), EP(fi)=(x,y)P~(x)P(yx)f(x,y),为特征函数f关于模型P(Y|X)和经验分布 P ~ ( X ) \tilde{P}(X) P~(X)的期望;

E P ~ ( f i ) = ∑ ( x , y ) P ~ ( x , y ) f ( x , y ) E_{\tilde{P}}(f_i)=\displaystyle\sum_{(x,y)}\tilde{P}(x,y)f(x,y) EP~(fi)=(x,y)P~(x,y)f(x,y),为特征函数f关于经验分布 P ~ ( x , y ) \tilde{P}(x,y) P~(x,y)的期望;

  • 因为优化问题为有约束条件的优化问题,所以使用广义拉格朗日乘数法来转化为无条件的最优化问题;
  • 然后将原始问题转化为求解对偶问题(极大极小问题转为极小极大问题),对于凸优化问题来说,二者的解是相同的;
  • 求解出了最大熵模型 P w ( y ∣ x ) P_w(y|x) Pw(yx)之后,代入到对偶函数中,然后采用优化方法(梯度下降、牛顿法、改进的迭代尺度法)来求得w的值,最后反代入最大熵模型,求得最终的模型
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值