统计学习方法笔记（李航）———第六章（逻辑斯谛回归）

最新推荐文章于 2024-01-22 17:42:29 发布

浩波的笔记

最新推荐文章于 2024-01-22 17:42:29 发布

阅读量535

点赞数

分类专栏：机器/深度学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_44023658/article/details/109561755

版权

机器/深度学习专栏收录该内容

56 篇文章 51 订阅

订阅专栏

前言：

《统计学习方法》虽然分别对两者作了介绍，但没有深入讨论它们之间的联系。本文准备从最大熵模型出发，推导出逻辑斯谛回归模型，并解释两者的联系与区别。

本文主要从以下几个方面进行描述：

最大熵原理的数学解释
如何理解条件分布的极大似然函数
将最大熵模型转化为逻辑斯谛模型

一、从最大熵模型到逻辑斯谛回归

（一）最大熵模型

最大熵原理

我们知道（参考第5章）信息熵用于衡量一个随机变量的“不确定性”，熵越大，表示随机变量的不确定性越高。也证明了，当随机变量为均匀分布的时候，它的熵最大。

“最大熵原理”的意思是，当我们预测一个随机变量的取值的时候，最好假设它均匀分布，保留全部不确定性，此时预测的风险最小。举个例子：如果投掷一颗骰子，让你预测各面出现的概率。在没有任何额外信息的情况下，我们会认为骰子是均匀的，各面出现的概率为1/6。从直觉上说，这是最稳妥的策略，不遗漏任何一种可能性，但如何从数学上证明这是最优策略呢？

让我们来把模型简化一下，假设投郑一枚硬币，只有正反面两种结果，其中正面的概率为 $\in[0,1],$ 若 $p$ 的预测值为 $\hat{p}, \hat{p}$ 应该如何取值呢?

直觉告诉我们应该取0.5，假设硬币是均匀的。为什么?

如果以真实值与预测值的“均方误差（MSE）”作为风险函数，当 $p$ 在 [0,1] 的范围内取值时，最优策略应该使得“均方误差”的数学期望最小化：

函数的期望值 $E(g(X))=\int_{-\infty}^{\infty} g(x) p(x) d x$

假设 $\hat{p}$ 在[0,1]范围内均匀分布，则 $\hat{p}$ 的概率密度函数为 $p (x) = 1$

$E(\hat{p})=E(p-\hat{p})^{2}=\int_{0}^{1}\left[(p-\hat{p})^{2} \cdot 1\right] d p$

$\underset{\hat{p}}{\arg \min } \int_{0}^{1}(p-\hat{p})^{2} d p$

$g(\hat{p})=\int_{0}^{1}(p-\hat{p})^{2} d p$
$\quad=\left[\frac{p^{3}}{3}-2 \hat{p} \frac{p^{2}}{2}+\hat{p}^{2} p\right]_{1}^{0}$
$\quad=\hat{p}^{2}-\hat{p}+\frac{1}{3}$

显然， $\hat{p}=0.5$ 时，MSE 取得最小值，即假设“硬币两面的概率相等”具有最小风险。推广至股子，可以证明股子“任意两面出现的概率相等”具有最小风险，即每一面概率为1/6。

2. 最大嫡模型

最大嫡模型是一个概率模型，目的是寻找符合要求的条件分布P(Y|X)。在定义最大嫡模型之前，需要引入下列概念：

联合分布的经验分布： $\quad \tilde{P}(X=x, Y=y)=\frac{\nu(X=x, Y=y)}{N}$

边缘分布的经验分布： $\quad \tilde{P}(X=x)=\frac{\nu(X=x)}{N}$

其中 $N$ 为训练集样本数, $\nu(X=x, Y=y)$ 表示样本 $(x, y)$ 在训练集中出现的次数。

特征函数： $y)=\left\{\begin{array}{l}1, x \text { 与 } y \text { 满足某一事实 } \\ 0, \text { 否则 }\end{array}\right.$

此特征函数具有普遍性，因此得到“最大嫡模型”的一般形式。如果替换为某种特殊形式，可以得到“逻辑斯締模型”。

特征函数 $f$ 关于经验分布 $\tilde{P}(X, Y)$ 的期望值：

$E_{\tilde{P}}(f)=\sum_{x, y} f(x, y) \tilde{P}(x, y)$

特征函数 $f$ 关于联合分布 $Y)=\tilde{P}(X) P(Y \mid X)$ 的期望值：

$E_{P}(f)=\sum_{x, y} f(x, y) \tilde{P}(x) P(y \mid x)$

我们假设训练集对于模型的学习是有效的，使得 $E_{P}(f)=E_{\bar{P}}(f),$ 此时特征函数 $f_{i}(x, y)$ 称为模型的约束条件。

最大嫡模型：假设满足所有约束条件的模型集合为

$\mathcal{C} \equiv\left\{P \in \mathcal{P} \mid E_{P}\left(f_{i}\right)=E_{\tilde{P}}\left(f_{i}\right), i=1,2,3, \ldots, n\right\}$

定义在条件概率分布 $\mid X)$ 上的条件嫡为
$\begin{aligned} H(P)=H(Y \mid X) &=-\sum_{x \in \mathcal{X}} P(x) \sum_{y \in \mathcal{Y}} P(y \mid x) \log P(y \mid x) \\ &=-\sum_{x, y} \tilde{P}(x) P(y \mid x) \log P(y \mid x) \end{aligned}$

此处 $P$ 不是普通的随机变量，而是条件概率分布 $\mid X),$ 因此P的嫡相当于Y的条件嫡 (且log 以e为底）。

满足所有约束条件 $\mathcal{C}$ 的模型 $\mid X)$ 里面，使得条件嫡 $H (P)$ 最大的模型，称为“最大嫡模型”。

最大嫡模型的学习可以分两步：

步骤一：转化为最优化问题

对于给定的训练集 $T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \ldots,\left(x_{N}, y_{N}\right)\right\},$ 特征函数为 $f_{i}(x, y), \quad i=1,2,3, \ldots, n$

最大商模型的学习等价于以下最优化问题：
$\begin{aligned} \max _{P \in \mathcal{C}} H(P)=&-\sum_{x, y} \tilde{P}(x) P(y \mid x) \log P(y \mid x) \\ \text { s.t. } E_{P}\left(f_{i}\right) &=E_{\tilde{P}}\left(f_{i}\right), i=1,2,3, \ldots, n \\ & \sum_{y} P(y \mid x)=1 \end{aligned}$

一般需进一步转化为求最小值问题：
$\min _{P \in \mathcal{C}}-H(P)=\sum_{x, y} \tilde{P}(x) P(y \mid x) \log P(y \mid x)$

$\begin{array}{l} \text {s.t. } E_{P}\left(f_{i}\right)-E_{\tilde{P}}\left(f_{i}\right)=0, i=1,2,3, \ldots, n \\ \quad \sum_{y} P(y \mid x)=1 \end{array}$

求条件极值，一般采用拉格朗日乘数法，定义拉格朗日函数 $L (P, w) :$
$w)=\sum_{x, y} \tilde{P}(x) P(y \mid x) \log P(y \mid x)+w_{0}\left(1-\sum_{y} P(y \mid x)\right)$

$+\sum_{i=1}^{n} w_{i}\left(\sum_{x, y} f(x, y) \tilde{P}(x, y)-\sum_{x, y} f(x, y) \tilde{P}(x) P(y \mid x)\right)$

接下来是关于“拉格朗日对偶性”的讨论，后面专门讨论这个问题，此处不再深入展开了。简单来说，把 P 和 $\mathrm{w}$ 作为变量，求拉格朗日函数的极值：
$\begin{aligned} \frac{\partial L(P, w)}{\partial P(y \mid x)} &=\sum_{x, y} \tilde{P}(x)(\log P(y \mid x)+1)-\sum_{y} w_{0}-\sum_{x, y}\left(\tilde{P}(x) \sum_{i=1}^{n} w_{i} f_{i}(x, y)\right) \\ &=\sum_{x, y} \tilde{P}(x)\left(\log P(y \mid x)+1-w_{0}-\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right) \\ &=0 \end{aligned}$

由于 $\tilde{P}(x)>0,$ 因此有 $\log P(y \mid x)+1-w_{0}-\sum_{i=1}^{n} w_{i} f_{i}(x, y)=0,$ 整理得:
$\begin{aligned} P(y \mid x)=\exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)+w_{0}-1\right) &=\frac{\exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)}{\exp \left(1-w_{0}\right)} \\ &=\frac{\exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)}{Z_{w}(x)} \end{aligned}$

根据约束条件 $\sum_{y} P(y \mid x)=1,$ 上式对y求和得到
$\begin{array}{l} Z_{w}(x)=\sum_{y} \exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right) \\ P_{w}(y \mid x)=\frac{1}{Z_{w}(x)} \exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right) \end{array}$

$Z_{w}(x)=\sum_{y} \exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)$

$P_{w}(y \mid x)=\frac{1}{Z_{w}(x)} \exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)$

注意：经此变换消去了拉格朗日乘子 $w_{0},$ 剩下 $w_{1}, w_{2}, \ldots, w_{n}$

步骤二：求 w 的值

此处可以有两种方法，一是直接求 $L\left(P_{w}, w\right)$ 的极大值，确定参数 $w$

在确定 $P_{w}(y \mid x)$ 后，再通过 $\frac{\partial L\left(P_{w}, w\right)}{\partial w}=0$ 求 $w$ 的值，得到 $w^{*}$ 。

二是通过“极大似然法”得到对数似然函数。由于书中的叙述较为精简，这里补充一下如何得到这个似然函数：

首先看“单变量”的似然函数：

$L\left(X=x_{1}, X=x_{2}, \ldots, X=x_{N} ; \theta\right)=\prod_{i=1}^{N} P\left(X=x_{i} ; \theta\right)$

设N为样本数， $x_{j} \in\left\{a_{1}, a_{2}, \ldots, a_{K}\right\},$ 即 $\times$ 有 $\mathrm{K}$ 种可能取值。

$\theta)=P\left(X=a_{1} ; \theta\right)^{n_{1}} P\left(X=a_{2} ; \theta\right)^{n_{2}} \ldots P\left(X=a_{K} ; \theta\right)^{n_{K}}$

$n_{1}, n_{2}, \ldots, n_{K}$ 是取值为 $a_{j}$ 的样本的个数，可以用 $\nu\left(X=a_{j}\right)$ 表示。

所以, $\quad L(x ; \theta)=\prod_{j=1}^{K} P\left(X=a_{j} ; \theta\right)^{\nu\left(X=a_{j}\right)}$

接下来看书中的情况，求 $\mid X)$ 的似然函数，也就是“多变量”条件分布的似然函数：

$\begin{aligned} L(P) &=P\left(Y=y_{1} \mid X=x_{1}\right)^{\nu\left(x_{1}, y_{1}\right)} P\left(Y=y_{2} \mid X=x_{2}\right)^{\nu\left(x_{2}, y_{2}\right)} \ldots P\left(Y=y_{K} \mid X=x_{K}\right)^{\nu\left(x_{K}, y_{K}\right)} \\ &=\prod_{x, y} P(y \mid x)^{\nu(x, y)} \end{aligned}$

如果对L§ 开N次方，得到 $L^{*}(P)=\prod_{x, y} P(y \mid x)^{\frac{\nu(x, y)}{N}}=\prod_{x, y} P(y \mid x)^{\tilde{P}(x, y)},$ 对求极值无影响，于是得到对数似然函数：
$L_{\tilde{P}}\left(P_{w}\right)=\log \prod_{x, y} P(y \mid x)^{\tilde{P}(x, y)}=\sum_{x, y} \tilde{P}(x, y) \log P(y \mid x)$

把“步骤一”得到的 $\mathrm{P}(\mathrm{y} \mid \mathrm{x})$ 代入上式，得到

$\begin{aligned} L_{\tilde{P}}\left(P_{w}\right) &=\sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} w_{i} f_{i}(x, y)-\sum_{x, y} \tilde{P}(x, y) \log Z_{w}(x) \\ &=\sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} w_{i} f_{i}(x, y)-\sum_{x} \tilde{P}(x) \log Z_{w}(x) \\ &=L\left(P_{w}, w\right) \end{aligned}$

最后的结论证明，最大嫡模型的极大似然估计等价于对偶函数极大化。

当参数 w 确定以后，最大嫡模型等于：

$Z_{w}(x)=\sum_{y} \exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)$

$P_{w}(y \mid x)=\frac{1}{Z_{w}(x)} \exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)$

这里的 $\in R^{n}, \quad y \in\{1,2, \ldots, K\}, \quad w \in R^{n}$ 为权值向量, $\quad f_{i}(x, y), i=1,2,3, \ldots, n$ 为特征函数。

（二）从最大嫡模型到逻辑斯締回归

之前说过，逻辑斯締回归是最大嫡模型的一个特例，而且关键在于特征函数的设置：

(1) 二分类问题

假设类别 $\in\{0,1\},$ 且 $\in R^{n},$ 它的 $\mathrm{n}$ 个特征函数为

$f_{i}(x, y)=\left\{\begin{array}{l}x_{i}, \text { 当 } y=1 \\ 0, \text { 当 } y=0\end{array}\right.$ 注意：作为二值函数，它的非零值不一定取1，而是 $x_{i}$ 。

那么， $Z_{w}(x)=\sum_{y} \exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)=\exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y=1)\right)+\exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y=0)\right)$

$\begin{aligned} &=\exp \left(\sum_{i=1}^{n} w_{i} x_{i}\right)+1 \\ P_{w}(y=1 \mid x) &=\frac{\exp \left(\sum_{i=1}^{n} w_{i} x_{i}\right)}{\exp \left(\sum_{i=1}^{n} w_{i} x_{i}\right)+1} \\ P_{w}(y=0 \mid x) &=\frac{1}{\exp \left(\sum_{i=1}^{n} w_{i} x_{i}\right)+1} \end{aligned}$

（2）多分类问题

这里需要对符号进行一定的修改

设类别 $\in\{1,2, \ldots, K\}$ ，对于不同类别，有不同的参数向量 $w_{1}, w_{2}, \ldots, w_{K},$ 注意 $w_{k}=\left(w_{k}^{(1)}, w_{k}^{(2)}, \ldots, w_{k}^{(n)}\right)^{T},$ 即每个参数向量有 $\mathrm{n}$ 个分量。相应地，样本 $\mathrm{x}$ 有 $\mathrm{n}$ 个特征 $x=\left(x^{(1)}, x^{(2)}, \ldots, x^{(n)}\right)^{T}$

$f_{i}(x, y)=\left\{\begin{array}{l}x^{(i)}, \text { 当 } y=k \\ 0, \text { 当 } y=0\end{array}\right.$
那么，
$\begin{aligned} Z_{w}(x) &=\sum_{y} \exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right) \\ &=\sum_{k=1}^{K} \exp \left(\sum_{i=1}^{n} w_{k}^{(i)} x^{(i)}\right) \\ P(Y=k \mid x) &=\frac{\exp \left(\sum_{i=1}^{n} w_{k}^{(i)} x^{(i)}\right)}{\sum_{k=1}^{K} \exp \left(\sum_{i=1}^{n} w_{k}^{(i)} x^{(i)}\right)} \end{aligned}$

这实际上是 softmax 分类器的形式。

下面从从广义线性模型的角度来看逻辑斯谛回归

二、指数族分布

什么是指数族分布呢？它是一个分布家族，包括：高斯分布、伯努利分布、二项分布、泊松分布等常见分布。

（1）一般形式

指数族分布具有以下一般形式：（此处使用CS229的符号规则）
$\eta)=b(y) \exp \left(\eta^{T} T(y)-a(\eta)\right)$

其中： $y$ 是分布对应的随机变量， $\eta$ 称为“自然参数”，一般为向量。 $T (y)$ 是 y的充分统计量，就是足以对表随机变量 y 主要特征的值，例如：样本均值、样本方差等。

$\eta^{T} T(y)$ 一般表示两个向量的内积， $\eta$ 与 $T (y)$ 有相同的维度。如果 $\eta$ 为标量，则 $T (y)$ 也为标量, $\eta^{T} T(y)$ 表示两个数的乘积。

$a(\eta)$ 称为 $\log$ 配分函数，它主要起到归一化的作用，使得密度函数积分结果为1。

(2) 高斯分布

为了简化计算，假设高斯分布的方差为1：
$\begin{aligned} p(y ; \mu) &=\frac{1}{\sqrt{2 \pi}} \exp \left(-\frac{1}{2}(y-\mu)^{2}\right) \\ &=\frac{1}{\sqrt{2 \pi}} \exp \left(-\frac{1}{2} y^{2}\right) \cdot\left(\mu y-\frac{1}{2} \mu^{2}\right) \end{aligned}$

它的指数族形式如下：

$\begin{aligned} \eta &=\mu \\ T(y) &=y \\ a(\eta) &=\mu^{2} / 2=\eta^{2} / 2 \\ b(y) &=(1 / \sqrt{2 \pi}) \exp \left(-y^{2} / 2\right) \end{aligned}$

(3) 伯努利分布
$\begin{aligned} p(y ; \phi) &=\phi^{y}(1-\phi)^{1-y} \\ &=\exp (y \log \phi+(1-y) \log (1-\phi)) \\ &=\exp \left(y \log \frac{\phi}{1-\phi}+\log (1-\phi)\right) \end{aligned}$

它的指数族形式如下：
$\eta=\log \frac{\phi}{1-\phi}, e^{\eta}=\frac{\phi}{1-\phi}, 1+e^{\eta}=\frac{1}{1-\phi}$

$\begin{array}{l} T(y)=y \\ a(\eta)=-\log (1-\phi)=\log \left(1+e^{\eta}\right) \\ b(y)=1 \end{array}$

三、广义线性模型

广义线性模型用来解决“给定 $x$ 预测 $y$ " 的问题，它基于以下三个假设：

$\mid x ; \theta \sim$ ExponentialFamily $(\eta)$

$h_{\theta}(x)=E[T(y) \mid x],$ 经常假设 $T (y) = y$

$\eta=\theta^{T} x$

假设一：认为 $\mathrm{y}$ 是服从指数族分布的。由于广义线性模型既可用于“回归”，也可用于“分类”，因此不同分布将生成不同模型。回归对应连续型分布，分类对应离散型分布。

假设二： $h_{\theta}(x)$ 就是需要“学习”的模型，它等于 $\mid x]$ 。为什么? $\mid x$ 就是给定数据x的条件下，预测 $\mathrm{y}$ 的值，它的数学期望不就是预测模型本身吗?

假设三：“自然参数”是样本x的线性组合，因此它是一个“线性模型”。

见证奇迹的时刻，看如何通过三个假设，得到不同的线性模型：

(1) 线性回归

线性回归对应高斯分布： $\mid x \sim N(\mu, 1)$ 。此假设的合理性在于，如果 $\mathrm{y}=\mathrm{h}(\mathrm{x})$ 为线性模型，实际值与预测值的误差是由随机扰动引起的，这部分误差是服从高斯分布的。

根据假设二，线性模型有如下形式：

$\begin{aligned} &h_{\theta}(x)=E[y \mid x]\\ &\begin{array}{lll} =\mu & \ldots & \text { 高斯分布的数学期望 } \end{array}\\ &=\eta \quad \ldots \quad \text { 高斯分布的指数族形式 }\\ &=\theta^{T} x \quad \ldots \quad \text { 假设三 } \end{aligned}$

线性回归模型的输出： $y=h_{\theta}(x)$

(2) Logistic Regression

逻辑斯締回归对应伯努利分布： $\mid x \sim$ Bernoulli $(\phi),$ 逻辑斯締回归的输出，并不是分类结果, 而是一个概率 $\mathrm{p}(\mathrm{y}=1 \mid \mathrm{x})_{\circ}$ 当此概率大于0.5时 $\mathrm{y}=1,$ 否则 $\mathrm{y}=0$ 。因此它等于伯努利分布的概率参数。

$\begin{aligned} &h_{\theta}(x)=E[y \mid x]\\ &\begin{array}{lll} =\phi \quad \ldots & \text { 伯努利分布的数学期望 } \end{array}\\ &=\frac{1}{1+e^{-\eta}} \quad \ldots \quad \text { 伯努利分布的指数族形式 }\\ &=\frac{1}{1+e^{-\theta^{T} x}} \quad \cdots\text { 假设三 } \end{aligned}$

逻辑斯締回归的分类结果： $y=\underset{y}{\arg \max } P(Y=y \mid x)=\underset{y}{\arg \max } h_{\theta}(x)$

(3) Softmax Regression

Softmax 与多项逻辑斯締回归是等价的，下面将证明这一点，它被用于解决多分类问题。由于涉及多分类，不能简单地假设 $T (y) = y,$ 此时 $\eta$ 与 $T (y)$ 都是向量。下面将展示这个较为复杂的推导过程：

设 $\in\{1,2, \ldots, k\}$

用分布参数 $\phi_{i}$ 表示 $\mathrm{y}$ 属于第 i 分类的概率：

当 $\ldots, k-1$ 时, $\quad \phi_{i}=p(y=i ; \phi)$

当 $i = k$ 时 $\quad \phi_{k}=p(y=k ; \phi)=1-\sum_{i=1}^{k-1} \phi_{i}$

由此可见，上述 $\mathrm{k}$ 个参数 $\phi_{i}$ 并非完全独立的，它们的和等于1。

令 $\in R^{k-1} \quad($ 一个 $\mathrm{k}-1$ 维的向量) $：$

$T(1)=\left(\begin{array}{c}1 \\ 0 \\ \vdots \\ 0\end{array}\right), \quad T(2)=\left(\begin{array}{c}0 \\ 1 \\ \vdots \\ 0\end{array}\right), \ldots, T(k-1)=\left(\begin{array}{c}0 \\ 0 \\ \vdots \\ 1\end{array}\right), \quad T(k)=\left(\begin{array}{c}0 \\ 0 \\ \vdots \\ 0\end{array}\right)$

其中 $T(y)_{i}$ 表示向量 $T (y)$ 的第 i 个分量。

接下来是关键一步，由于 $T(y)_{i}=1\{y=i\}=\left\{\begin{array}{l}1, y=i \\ 0, y \neq i\end{array},\right.$ 可用“示性函数”表示，

$\begin{aligned} E\left[T(y)_{i}\right]=E[1\{y=i\}] &=1 \cdot p(y=i)+0 \cdot p(y \neq i) \\ &=p(y=i) \\ &=\phi_{i} \end{aligned}$

由此得到 softmax 的概率质量函数：
$\begin{aligned} p(y ; \phi)=p(y=i ; \phi) &=p(y=1)^{1\{y=1\}} p(y=2)^{1\{y=2\}} \ldots p(y=k)^{1\{y=k\}} \\ &=\phi_{1}^{1\{y=1\}} \phi_{2}^{1\{y=2\}} \ldots \phi_{k}^{1-\sum_{i=1}^{k-1} 1\{y=i\}} \\ &=\phi_{1}^{T(y)_{1}} \phi_{2}^{T(y)_{2}} \ldots \phi_{k}^{1-\sum_{i=1}^{k-1} T(y)_{i}} \\ &=\exp \left(T(y)_{1} \log \left(\phi_{1}\right)+T(y)_{2} \log \left(\phi_{2}\right)+\ldots+\left(1-\sum_{i=1}^{k-1} T(y)_{i}\right) \log \phi_{k}\right) \end{aligned}$

如果把 $\left(1-\sum_{i=1}^{k-1} T(y)_{i}\right) \log \phi_{k}$ 展开，分别合并到前 $\mathrm{k}-1$ 项里面，可得

$\begin{array}{c} p(y ; \phi)=\exp \left(T(y)_{1} \log \left(\frac{\phi_{1}}{\phi_{k}}\right)+T(y)_{2} \log \left(\frac{\phi_{2}}{\phi_{k}}\right)+\ldots+T(y)_{k-1} \log \left(\frac{\phi_{k-1}}{\phi_{k}}\right)+\log \left(\phi_{k}\right)\right) \\ =b(y) \exp \left(\eta^{T} T(y)-a(\eta)\right) \\ \eta=\left(\begin{array}{c} \log \frac{\phi_{1}}{\phi_{k}} \\ \log \frac{\phi_{2}}{\phi_{k}} \\ \vdots \\ \log \frac{\phi_{k-1}}{\phi_{k}} \end{array}\right), \quad T(y)=\left(\begin{array}{c} T(y)_{1} \\ T(y)_{2} \\ \vdots \\ T(y)_{k-1} \end{array}\right), \quad a(\eta)=-\log \left(\phi_{k}\right), \quad b(y)=1 \end{array}$

以上就是 softmax 的指数族形式。

最后，寻找“自然参数” $\eta$ 与 “分布参数” $\phi$ 的关系：

由于 $\eta_{i}=\log \frac{\phi_{i}}{\phi_{k}},$ 那么 $e^{\eta_{i}}=\frac{\phi_{i}}{\phi_{k}},$ 即 $\phi_{k} e^{\eta_{i}}=\phi_{i}$

把上式左右两边累加起来，得到：
$\phi_{k} \sum_{i=1}^{k} e^{\eta_{i}}=\sum_{i=1}^{k} \phi_{i}=1, \text { 即 } \phi_{k}=\frac{1}{\sum_{i=1}^{k} e^{\eta_{i}}}$

将“即”字后面的两个式子整理一下，得到： $\phi_{i}=\frac{e^{\eta_{i}}}{\sum_{j=1}^{k} e^{\eta_{j}}} \ldots$ 式

但请注意： $\eta$ 只有 $\mathrm{k}-1$ 个分量，如果令 $\eta_{k}=0,$ 使得

$\phi_{k}=\frac{e^{\eta_{k}}}{\sum_{i=1}^{k} e^{\eta_{i}}}=\frac{e^{\eta_{k}}}{\sum_{i=1}^{k-1} e^{\eta_{i}}+e^{\eta_{k}}}=\frac{1}{\sum_{i=1}^{k-1} e^{\eta_{i}}+1} \ldots$ 式

刚好满足 $\sum_{i=1}^{k} \phi_{i}=1$ 。

根据假设三： $\eta_{i}=\theta_{i}^{T} x,$ 其中 $\theta_{k}=0,$ 将其代入式 (1) $、$ 式 (2) 得到
当 $\ldots, k-1$ 时 $\quad \phi_{i}=p(y=i ; \phi)=\frac{e_{i}^{\theta_{i} x}}{\sum_{j=1}^{k} e^{\theta_{j}^{T} x}} \ldots$ 式 (3)

当 $i = k$ 时, $\quad \phi_{k}=p(y=k ; \phi)=\frac{1}{\sum_{i=1}^{k-1} e^{\theta_{i}^{T} x}+1} \ldots$ 式

上述式 (3) 、式 (4) 就是 Softmax Regression 模型，与多项逻辑斯締回归模型一样。
$\phi_{i}, i=1, \ldots, k$ 中概率最大的那一项，决定了 $\mathrm{y}$ 的取值。

四、线性从何而来

如果选择一个公式代表“逻辑斯締回归”，该选择哪个公式呢？我认为是：

$\log \frac{P(Y=1 \mid X)}{P(Y=0 \mid X)}=\theta^{T} x$ 或者 $\log \frac{p}{1-p}=\theta^{T} x,$

其中 $\mid X)$

也就是“对数几率”等于 $\mathrm{x}$ 的线性函数。

从这个公式出发，可以推导出逻辑斯締回归的全部公式。

如果把右侧的线性模型记作 s，上式可以表示为

$\log \frac{p}{1-p}=s$ 即 $p=\frac{1}{1+e^{-s}},$ 由此可见 $\mathrm{p}$ 是 $\mathrm{s}$ 的 sigmoid 函数。

sigmoid 的作用是将 $\in(-\infty, \infty)$ 映射至 $\in(0,1)$ ，于是分类结果 s：正数（代表正类），负数（代表负类）被转换为一个处于0到1之间的概率值 $\mathrm{p}_{\circ}$

回顾感知机模型（线性模型），通过模型的符号标记分类结果，逻辑斯締回归只是进一步把符号转换为概率值。如果把线性模型替换为其他非线性模型，只要用正数、负数表示不同分类，将其代入 sigmoid 函数，仍可得到不同的概率输出。

最后一个问题：为什么选择线性模型 $\theta^{T} x$ 呢? 或者说为什么 $\log \frac{P(Y=1 \mid X)}{P(Y=0 \mid X)}=\theta^{T} x$ ?

仅仅是因为线性模型最简单吗？此处试图从另一个角度看待这个问题。根据贝叶斯定理，

$\log \frac{P(Y=1 \mid X)}{P(Y=0 \mid X)}=\log \frac{\frac{P(X \mid Y=1)}{P(X)}}{\frac{P(X \mid Y=0)}{P(X)}}=\log \frac{P(X \mid Y=1)}{P(X \mid Y=0)}+\log \frac{P(Y=1)}{P(Y=0)}$

其中 $\log \frac{P(Y=1)}{P(Y=0)}$ 是由训练集样本决定的常数（设为 $\theta_{0}$ ) , $\mid Y)$ 假设服从高斯分布，且在 Y的不同取值情况下方差相同（或者简单设为1），但均值不同。于是有

$\log \frac{\exp \left(-\left(x-\mu_{1}\right)^{2}\right)}{\exp \left(-\left(x-\mu_{2}\right)^{2}\right)}+\theta_{0}=\left(\mu_{1}-\mu_{2}\right) x+\left(-\mu_{1}^{2}+\mu_{2}^{2}\right)+\theta_{0}$

上式等号右侧为 $\mathrm{x}$ 与参数 $\theta$ 的线性模型。

在更为一般的情况下，如果将 $\mid Y)$ 换成其他“指数族分布”，结果仍然是线性模型。

更多请阅读：Logistic Regression 模型简介

习题

第6章Logistic回归与最大熵模型

code实践（一定阅读）

逻辑斯蒂回归
 最大熵

参考自：
mygame182
机器学习白板推导系列

浩波的笔记

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
统计学习方法笔记（李航）———第六章（逻辑斯谛回归）

前言：《统计学习方法》虽然分别对两者作了介绍，但没有深入讨论它们之间的联系。本文准备从最大熵模型出发，推导出逻辑斯谛回归模型，并解释两者的联系与区别。本文主要从以下几个方面进行描述：最大熵原理的数学解释如何理解条件分布的极大似然函数将最大熵模型转化为逻辑斯谛模型一、从最大熵模型到逻辑斯谛回归（一）最大熵模型最大熵原理我们知道（参考第5章）信息熵用于衡量一个随机变量的“不确定性”，熵越大，表示随机变量的不确定性越高。也证明了，当随机变量为均匀分布的时候，它的熵最大。“最大熵原理”的意思
复制链接

扫一扫