统计学习方法——逻辑斯蒂回归与最大熵模型（二）

最新推荐文章于 2022-05-28 13:58:19 发布

你的名字5686

最新推荐文章于 2022-05-28 13:58:19 发布

阅读量273

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/wk19951125/article/details/88811953

版权

机器学习专栏收录该内容

29 篇文章 1 订阅

订阅专栏

统计学习方法——逻辑斯蒂回归与最大熵模型

逻辑斯蒂回归与最大熵模型
- 模型学习的最优化算法

逻辑斯蒂回归与最大熵模型

模型学习的最优化算法

由于逻辑斯蒂回归模型、最大熵模型学习都可以归结为以似然函数为目标函数的最优化问题，因此可以放在一起讨论。

改进的迭代尺度法（IIS）

改进的迭代尺度法是一种最大熵模型学习的最优化算法。

已知最大熵模型为
${P_w}\left( {y\left| x \right.} \right) = \frac{1}{{{Z_w}\left( x \right)}}\exp \left( {\sum\limits_{i = 1}^n {{w_i}{f_i}\left( {x,y} \right)} } \right)$
其中
${Z_w}\left( x \right) = \sum\limits_y {\exp \left( {\sum\limits_{i = 1}^n {{w_i}{f_i}\left( {x,y} \right)} } \right)}$
对数似然函数为
$L\left( w \right) = \sum\limits_{x,y} {\tilde P\left( {x,y} \right)\sum\limits_{i = 1}^n {{w_i}{f_i}\left( {x,y} \right)} - \sum\limits_x {\tilde P\left( x \right)} } \log {Z_w}\left( x \right)$

IIS的思路
假设最大熵模型当前的参数向量为 ${\left( {{w_1},{w_2}, \cdots ,{w_n}} \right)^T}$ ，我们希望找到一个新的参数向量 $\delta = {\left( {{w_1} + {\delta _1},{w_2} + {\delta _2}, \cdots ,{w_n} + {\delta _n}} \right)^T}$ 使得模型的对数似然函数值增大。
IIS算法
- 输入：特征函数 $f_1,f_2,...,f_n$ ，经验分布 ${\tilde P\left( {X,Y} \right)}$ ，模型 ${P_w}\left( {y\left| x \right.} \right)$
- 输出：最优参数 $w_i^*$ ，最优模型 $P_{w^*}$
- 流程
  - 对所有 $\in \left\{ {1,2, \cdots ,n} \right\}$ ，取初值 ${w_i} = 0$
  - 对每一 $\in \left\{ {1,2, \cdots ,n} \right\}$ :
    - 令 ${\delta _i}$ 为方程 $\sum\limits_{x,y} {\tilde P\left( x \right)P\left( {y\left| x \right.} \right){f_i}\left( {x,y} \right)\exp \left( {{\delta _i},{f^\# }\left( {x,y} \right)} \right)} = {E_{\tilde P}}\left( {{f_i}} \right)$ 的解，其中 ${f^\# }\left( {x,y} \right) = \sum\limits_{i = 1}^n {{f_i}\left( {x,y} \right)}$
    - 更新 $w_i$ ： ${w_i} \leftarrow {w_i} + {\delta _i}$
  - 如果不是所有的 $w_i$ 都收敛，则重复上一步骤。
- 计算 ${\delta _i}$
  - 使用牛顿法迭代求得 ${\delta _i^*}$ ，迭代公式为：
    $\delta _i^{\left( {k + 1} \right)} = \delta _i^{\left( k \right)} - \frac{{g\left( {\delta _i^{\left( k \right)}} \right)}}{{g'\left( {\delta _i^{\left( k \right)}} \right)}}$
    适当选取初始值 ${\delta _i^{\left( 0 \right)}}$ ，牛顿法会快速收敛。

拟牛顿法

对于最大熵模型：
${P_w}\left( {y\left| x \right.} \right) = \frac{{\exp \left( {\sum\limits_{i = 1}^n {{w_i}{f_i}\left( {x,y} \right)} } \right)}}{{\sum\limits_y {\exp \left( {\sum\limits_{i = 1}^n {{w_i}{f_i}\left( {x,y} \right)} } \right)} }}$
目标函数：
$\mathop {\min }\limits_{w \in {R^n}} f\left( w \right) = \sum\limits_x {\tilde P\left( x \right)\log \sum\limits_y {\exp \left( {\sum\limits_{i = 1}^n {{w_i}{f_i}\left( {x,y} \right)} } \right)} } - \sum\limits_{x,y} {\tilde P\left( {x,y} \right)\sum\limits_{i = 1}^n {{w_i}{f_i}\left( {x,y} \right)} }$
梯度为：
$g\left( w \right) = {\left( {\frac{{\partial f\left( w \right)}}{{\partial {w_1}}},\frac{{\partial f\left( w \right)}}{{\partial {w_2}}}, \cdots ,\frac{{\partial f\left( w \right)}}{{\partial {w_n}}}} \right)^T}$
其中 $\frac{{\partial f\left( w \right)}}{{\partial {w_i}}} = \sum\limits_{x,y} {\tilde P\left( x \right){P_w}\left( {y\left| x \right.} \right)} {f_i}\left( {x,y} \right) - {E_{\tilde P}}\left( {{f_i}} \right),\quad i = 1,2, \cdots ,n$

最大熵模型学习的BFGS算法
- 输入：特征函数 $f_1,f_2,\cdot,f_n$ ，经验分布 $\tilde P\left( x,y \right)$ ，目标函数 $f\left( w \right)$ ，梯度 $g\left( w \right) = \nabla f\left( w \right)$ ，精确要求 $\varepsilon$
- 输出：最优参数 $w^*$ ；最优模型 ${P_{{w^*}}}\left( {y\left| x \right.} \right)$
- 流程
  - 选定初始点 ${w^{\left( 0 \right)}}$ ，取 $B_0$ 为正定对称矩阵，设置 $k = 0$
  - 计算 ${g_k} = g\left( {{w^{\left( k \right)}}} \right)$ ，若 $\left\| {{g_k}} \right\| < \varepsilon$ ，则停止计算，得 $w^*=w^{\left(k\right)}$ ，否则继续下面的计算
  - 由 $B_kp_k=-g_k$ 求出 $p_k$
  - 一维搜索：求 $\lambda_k$ 使得 $f\left( {{w^{\left( k \right)}} + {\lambda _k}{p_k}} \right) = \mathop {\min }\limits_{\lambda \ge 0} f\left( {{w^{\left( k \right)}} + \lambda {p_k}} \right)$
  - 设置 ${w^{\left( {k + 1} \right)}} = {w^{\left( k \right)}} + {\lambda _k}{p_k}$
  - 计算 ${g_{k + 1}} = g\left( {{w^{\left( {k + 1} \right)}}} \right)$ ，若 $\left\| {{g_{k + 1}}} \right\| < \varepsilon$ ，则停止计算，得到 $w^*=w^{\left(k+1\right)}$ ，否则按下式求解 $B_{k+1}$ :
    ${B_{k + 1}} = {B_k} + \frac{{{y_k}y_k^T}}{{y_k^T{\delta _k}}} - \frac{{{B_k}{\delta _k}\delta _k^T{B_k}}}{{\delta _k^T{B_k}{\delta _k}}}$
    其中 ${y_k} = {g_{k + 1}} - {g_k},\quad {\delta _k} = {w^{\left( {k + 1} \right)}} - {w^{\left( k \right)}}$
  - 设置 $k = k + 1$ ，转第三步。