统计学习方法笔记（十）逻辑斯谛回归与最大熵模型

最新推荐文章于 2021-10-27 10:09:04 发布

yeyustudy

最新推荐文章于 2021-10-27 10:09:04 发布

阅读量319

点赞数

分类专栏：统计学习方法笔记

本文链接：https://blog.csdn.net/yeyustudy/article/details/80069444

版权

统计学习方法笔记专栏收录该内容

23 篇文章 0 订阅

订阅专栏

逻辑斯谛回归与最大熵模型

主要用于统计学习中的经典分类方法

逻辑斯谛回归模型

1、定义：设X是连续随机变量，其具有的分布函数和密度函数：
$F(x) = P(X \le x) = \frac{1}{{1 + {e^{ - (x - \mu )/\gamma }}}}$
$f(x) = F'(x) = \frac{{{e^{ - (x - \mu )/\gamma }}}}{{\gamma {{(1 + {e^{ - (x - \mu )/\gamma }})}^2}}}$
其中， $\mu$ 为位置参数， $\gamma>0$ 为形状参数
其曲线以点 $(\mu ,\frac{1}{2})$ 为中心对称
这里写图片描述
如图所示，曲线在中心增长较快，在两端增长速度较慢。
2、二项逻辑斯谛回归模型
定义：如下的条件概率分布：
$P(Y = 1|x) = \frac{{\exp (w \cdot x + b)}}{{1 + \exp (w \cdot x + b)}}$
$P(Y = 0|x) = \frac{1}{{1 + \exp (w \cdot x + b)}}$
有时为了方便，将权值向量与输入向量加以扩充，模型变为：
$P(Y = 1|x) = \frac{{\exp (w \cdot x)}}{{1 + \exp (w \cdot x)}}$
$P(Y = 0|x) = \frac{1}{{1 + \exp (w \cdot x)}}$
几率的定义：发生的概率与不发生的概率的比值。
对逻辑斯谛回归而言，其对数几率为：
$\log \frac{{P(Y = 1|x)}}{{1 - P(Y = 1|x)}} = w \cdot x$
这意味着，输出Y=1的对数几率是输入x的线性模型。
换一个角度思考，针对对输入x进行分类的线性函数 $w \cdot x$ ,显然，可以利用逻辑斯谛模型将其转换为概率，即
$P(Y = 1|x) = \frac{{\exp (w \cdot x)}}{{1 + \exp (w \cdot x)}}$
很明显，当x趋向于正无穷是，其概率值接近一，趋向于负无穷时，其概率值接近零。
3、模型参数估计
显然，如果已知参数w，我们可以根据逻辑斯谛回归模型，来计算条件概率分布，根据条件概率的分布的大小来决定分类，故关键在于未知参数w的估计。采用极大似然估计的方法来推导。
做如下假设： $P(Y = 1|x) = \pi (x)$ $P(Y = 0|x) = 1 - \pi (x)$
其极大似然函数为：
$\prod\limits_{i = 1}^N {{{[\pi ({x_i})]}^{{y_i}}}{{[1 - \pi ({x_i})]}^{1 - {y_i}}}}$
其对数似然函数为：
$\begin{array}{c} L(w) = \sum\limits_{i = 1}^N {[{y_i}\log \pi ({x_i}) + (1 - {y_i})\log (1 - \pi ({x_i}))]} \ = \sum\limits_{i = 1}^N {[{y_i}\log \frac{{\pi ({x_i})}}{{1 - \pi ({x_i})}} + \log (1 - \pi ({x_i}))]} \ = \sum\limits_{i = 1}^N {[{y_i}(w \cdot {x_i}) - \log (1 + \exp (w \cdot {x_i}))]} \end{array}$
对上式求极大值解w即可。如果将w的估计值记为 $\widehat w$ 则逻辑斯谛模型为
$\begin{array}{l} P(Y = 1|x) = \frac{{\exp (\widehat w \cdot x)}}{{1 + \exp (\widehat w \cdot x)}}\ P(Y = 0|x) = \frac{1}{{1 + \exp (\widehat w \cdot x)}} \end{array}$
4、推广到多项分类
其多项逻辑斯谛回归模型为：
$P(Y = k|x) = \frac{{\exp ({w_k} \cdot x)}}{{1 + \sum\limits_{k = 1}^{K - 1} {\exp ({w_k} \cdot x)} }},k = 1,2, \cdots ,K - 1$
$P(Y = K|x) = \frac{1}{{1 + \sum\limits_{k = 1}^{K - 1} {\exp ({w_k} \cdot x)} }}$
其中Y的取值集合为1到K

最大熵模型

1、最大熵的原理：
最大熵原理认为，在所有可能的概率模型中，熵最大的模型是最好的模型，故而，最大熵原理也可以表述为在满足约束条件下选取熵最大的模型。
熵的定义： $H(P) = - \sum\limits_x {P(x)\log P(x)}$
其满足不等式： $0 \le H(P) \le \log |X|$
当且仅当X的分布时均匀分布时右边的等号才成立，即当X满足均匀分布时熵最大。
结合上面的不等式，当给定约束条件下，熵最大也就代表了未知信息的等可能性。
2、最大熵模型定义：
假设分类模型是一个条件概率分布 $P(Y|X)$
确定联合概率分布以及边缘分布：
$\widetilde P(X = x,Y = y) = \frac{{v(X = x,Y = y)}}{N}$
$\widetilde P(X = x) = \frac{{v(X = x)}}{N}$
其中， $v$ 代表样本出现的频数，N代表样本容量。
定义一个特征函数来判断是否满足分类，定义如下
当x与y满足某一事实时， $f(x,y)$ 等于1，否则等于0。
其期望为：
${E_{\widetilde P}}(f) = \sum\limits_{x,y} {\widetilde P(x,y)f(x,y)}$
特征函数关于模型 $P(Y|X)$ 与经验分布 $\widetilde P(X)$ 的期望为：
${E_P}(f) = \sum\limits_{x,y} {\widetilde P(x)P(y|x)f(x,y)}$
如果模型能够获取训练数据中的信息，可以假设这两个期望相等，即有：
$\sum\limits_{x,y} {\widetilde P(x)P(y|x)f(x,y)} = \sum\limits_{x,y} {\widetilde P(x,y)f(x,y)}$
将其作为约束条件，另外，有几个特征函数就有几个约束条件。
3、最大熵模型
假设所有满足约束条件的模型集合为：
${\cal C} \equiv \{ P \in {\cal P}|{E_{{P_i}}}(f) = {E_{\widetilde {{P_i}}}}(f),i = 1,2, \cdots ,n\}$
则定义在条件概率分布上的条件熵为：
$H(P) = - \sum\limits_{x,y} {\widetilde P(x)P(y|x)\log P(y|x)}$
至此，最大熵模型定义完毕
4、最大熵的学习
最大熵的学习就是约束最优的问题，我们要求条件熵的最大值，按照最优化问题的习惯，将其转化为等价的最小值问题：
$\mathop {\min }\limits_{P \in C} - H(P) = \sum\limits_{x,y} {\widetilde P(x)P(y|x)\log P(y|x)}$
$s.t.\;\;\;{E_{{P_i}}}(f) - {E_{\widetilde {{P_i}}}}(f){\rm{ = }}0\;\;i = 1,2, \cdots ,n$
$\sum\limits_y {P(y|x)} = 1$
对约束最优化问题的求解这里不多做叙述，可以参考《统计学习方法》第84页的求解过程。
5、最大熵模型的对偶函数极大化等价于最大熵模型的极大似然估计。

模型学习的最优化算法

最大熵模型学习最终可以归结为以似然函数为目标函数的最优问题，这时的目标函数是光滑的凸函数，有多种最优化的方法适用，常用的有改进的迭代尺度法、梯度下降法、牛顿法以及拟牛顿法。
1、改进的迭代尺度法
已知最大熵模型
${P_w}(y|x) = \frac{1}{{{Z_w}(x)}}\exp (\sum\limits_{i = 1}^n {{w_i}{f_i}(x,y)} )$
其中， ${Z_w}(x) = \sum\limits_y {\exp ({w_i}{f_i}(x,y))}$
对数似然函数为：
$L(w) = \sum\limits_{x,y} {\widetilde P(x,y)} \sum\limits_{i = 1}^n {{w_i}{f_i}(x,y)} - \sum\limits_x {\widetilde P(x)\log } {Z_w}(x)$
目标是求对数似然函数的极大值 $\widehat w$
此种算法的思想是给定一个参数w，假设其有一个增量 $\delta$ ，更新后其似然函数值增大，随着参数w不断增大，直至找到对数似然函数的最大值。
参数从w到 $w +\delta$ ，对数似然函数的改变量是：

L (w + δ) - L (w) = \sum x, y P ˜ (x, y) log P w + δ (y | x) - \sum x, y P ˜ (x, y) log P w (y | x) = \sum x, y P ˜ (x, y) \sum i = 1 n δ i f i (x, y) - \sum x P ˜ (x) log Z w + δ ( x ) Z w ( x )

$\begin{array}{c} L(w + \delta ) - L(w) = \sum\limits_{x,y} {\widetilde P(x,y)} \log {P_{w + \delta }}(y|x) - \sum\limits_{x,y} {\widetilde P(x,y)} \log {P_w}(y|x)\\ = \sum\limits_{x,y} {\widetilde P(x,y)} \sum\limits_{i = 1}^n {{\delta _i}{f_i}(x,y)} - \sum\limits_x {\widetilde P(x)\log \frac{{{Z_{w + \delta }}(x)}}{{{Z_w}(x)}}} \end{array}$
利用不等式

−logα≥1−α − log ⁡ α ≥ 1 − α $- \log \alpha \ge 1 - \alpha$ ，可以得到

L(w+δ)−L(w)≥∑x,yP˜(x,y)∑i=1nδifi(x,y)+1−∑xP˜(x)∑yPw(y|x)exp∑i=1nδifi(x,y) L ( w + δ ) − L ( w ) ≥ ∑ x , y P ~ ( x , y ) ∑ i = 1 n δ i f i ( x , y ) + 1 − ∑ x P ~ ( x ) ∑ y P w ( y | x ) exp ⁡ ∑ i = 1 n δ i f i ( x , y ) $L(w + \delta ) - L(w) \ge \sum\limits_{x,y} {\widetilde P(x,y)\sum\limits_{i = 1}^n {{\delta _i}{f_i}(x,y)} + 1 - \sum\limits_x {\widetilde P(x)\sum\limits_y {{P_w}(y|x)\exp \sum\limits_{i = 1}^n {{\delta _i}{f_i}(x,y)} } } }$
将右端记为

A(δ|w) A ( δ | w ) $A(\delta |w)$ ，则有：

L(w+δ)−L(w)≥A(δ|w) L ( w + δ ) − L ( w ) ≥ A ( δ | w ) $L(w + \delta ) - L(w) \ge A(\delta |w)$
如果能找到适合的

δ δ $\delta$ 使得

A(δ|w) A ( δ | w ) $A(\delta |w)$ 能不断的提高，也就实现了我们的目的，然而

δ δ $\delta$ 是一个向量，含有多个变量，不易同时优化，故每次只优化一个变量而固定其他变量。引入如下函数：

f#(x,y)=∑ifi(x,y) f # ( x , y ) = ∑ i f i ( x , y ) ${f^\# }(x,y) = \sum\limits_i {{f_i}(x,y)}$
其中

fi f i ${{f_i}}$ 是二值函数，代表特征。经过推导，有：

∑x,yP˜(x)Pw(y|x)fi(x,y)exp(δif#(x,y))=EP˜(fi) ∑ x , y P ~ ( x ) P w ( y | x ) f i ( x , y ) exp ⁡ ( δ i f # ( x , y ) ) = E P ~ ( f i ) $\sum\limits_{x,y} {\widetilde P(x){P_w}(y|x){f_i}(x,y)\exp ({\delta _i}{f^\# }(x,y))} = {E_{\widetilde P}}({f_i})$
详细推导过程见第90页。

yeyustudy

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
统计学习方法笔记（十）逻辑斯谛回归与最大熵模型

逻辑斯谛回归与最大熵模型主要用于统计学习中的经典分类方法逻辑斯谛回归模型1、定义：设X是连续随机变量，其具有的分布函数和密度函数： F(x)=P(X≤x)=11+e−(x−μ)/γF(x)=P(X≤x)=11+e−(x−μ)/γF(x) = P(X \le x) = \frac{1}{{1 + {e^{ - (x - \mu )/\gamma }}}} f(x)=F′(x...
复制链接

扫一扫

专栏目录