MLaPP Chapter 8 Logistic Regression 逻辑斯特回归

最新推荐文章于 2021-08-22 22:45:47 发布

张小彬的代码人生

最新推荐文章于 2021-08-22 22:45:47 发布

阅读量2.5k

点赞数 1

分类专栏：机器学习 MLaPP 文章标签：机器学习 LR 线性回归

本文链接：https://blog.csdn.net/zhangxb35/article/details/54927952

版权

8.1 Introduction

LR 是一个非常重要的模型，几乎所有的机器学习职位面试都会问到。因此这章是重点，一定要看懂。

8.2 Model specification

把线性回归的高斯分布，换成伯努利分布，就成了逻辑斯特回归，不过这个模型其实是个分类模型，

p (y | x, w) = Ber (y | sigm (w T x))

$p(y|\mathbf{x}, \mathbf{w}) = \text{Ber}(y|\text{sigm}(\mathbf{w}^T\mathbf{x}))$ 其中

sigm (η) ≜ e η 1 + e η

$\text{sigm}(\eta) \triangleq \frac{e^\eta}{1+ e^\eta}$ 表示 sigmoid function, or logit or logistic function.

最后 LR 学到的是一个线性决策面，而 $\mathbf{w}$ 就是该决策面的垂线（perpendicular）。

8.3 Model fitting 模型拟合

这一小节考虑怎么来估计 LR 中的参数，即 $\mathbf{w}$ 的取值。

8.3.1 MLE

$\text{LR}$ 里用的是伯努利分布（Bernoulli Distribution），其中只有一个参数 $\theta$ ，如果用

u i = p (y i = 1) = sigm (w T x i) = 1 1 + e w T x i

$u_i = p(y_i = 1) = \text{sigm}(\mathbf{w}^T\mathbf{x}_i) = \frac{1}{1+e^{\mathbf{w}^T\mathbf{x}_i}}$ 表示第

i $i$ 个样本中

yi=1 $y_i = 1$ 的概率，那么

LR $\text{LR}$ 的 negative log-likelihood 如下，

NLL (w) = - \sum i = 1 N log [μ I (y i = 1) i \times (1 - μ i) I (y i = 0)] = - \sum i = 1 N [y i log μ i + (1 - y i) log (1 - μ i)]

$\begin{align*} \text{NLL}(\mathbf{w}) & = -\sum_{i=1}^N \log [\mu_i^{\mathbb{I}(y_i = 1)} \times (1-\mu_i)^{\mathbb{I}(y_i = 0)}]\\ & = -\sum_{i=1}^N [y_i\log\mu_i + (1-y_i)\log(1-\mu_i)] \end{align*}$ 这个就是交叉熵（cross entropy）损失函数。

也有另一种表示方法，令

y^i∈{ −1,+1},p(y=1)=11+exp(−wTx),p(y=0)=11+exp(+wTx)

$\hat y_i \in \{-1, +1\},\quad p(y=1) = \frac1{1+\exp(-\mathbf{w}^T\mathbf{x})},\quad p(y=0) = \frac1{1+\exp(+\mathbf{w}^T\mathbf{x})}$ 那么可以重写损失函数，

NLL (w) = \sum i = 1 N log (1 + exp (- y^i w T x i))

$\text{NLL}(\mathbf{w}) = \sum_{i=1}^N \log(1+\exp(-\hat y_i \mathbf{w}^T\mathbf{x}_i))$

yu这个交叉熵损失函数并没有封闭式解（closed-form solution），而是只能通过优化算法（optimizatin algorithm）或者说叫做迭代（iterative）的算法来解决。（关于封闭式解，可以举计算 $\sqrt 8$ 的例子来说明。）

我们来算一下第一种 $\text{NLL}$ 的梯度回传，注意书里的 $f(\mathbf{w}) \triangleq \text{NLL}(\mathbf{w})$ ，且记住 sigmoid 函数的一阶导数为 $u_i' = u_i (1 - u_i)$ ，或者稍微推导一下吧，

u' (α) = (1 1 + e α)' = e α ( 1 + e α ) 2 = u (α) (1 - u (α))

$u'(\alpha) = \left ( \frac1{1 + e^\alpha} \right )' = \frac{e^\alpha}{(1+e^\alpha)^2} = u(\alpha)(1 - u(\alpha))$ 那么一阶导数就可以像下面这样计算啦，

g = d d w f (w) = - d d w \sum i = 1 N [y i log μ i + (1 - y i) log (1 - μ i)] = \sum i - (y i u i d u i d w + 1 - y i 1 - u i (- 1) d u i d w) = \sum i u i - y i u i ( 1 - u i ) d u i d w = \sum i u i - y i u i ( 1 - u i ) d u i d α d α d w, α = w T x i, d u i d α = u' (α) = \sum i

最低0.47元/天解锁文章

张小彬的代码人生

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
MLaPP Chapter 8 Logistic Regression 逻辑斯特回归

8.1 IntroductionLR 是一个非常重要的模型，几乎所有的机器学习职位面试都会问到。因此这章是重点，一定要看懂。8.2 Model specification把线性回归的高斯分布，换成伯努利分布，就成了逻辑斯特回归，不过这个模型其实是个分类模型，p(y|x,w)=Ber(y|sigm(wTx))p(y|\mathbf{x}, \mathbf{w}) = \text{Ber}(y|\tex
复制链接

扫一扫