Logistic回归 - 损失函数推导(最大似然&交叉熵)

momentum_

已于 2022-08-21 21:05:32 修改

阅读量954

点赞数

分类专栏： AI 文章标签：回归机器学习逻辑回归

于 2022-08-21 20:51:57 首次发布

本文链接：https://blog.csdn.net/weixin_47000625/article/details/126455231

版权

AI 专栏收录该内容

12 篇文章 1 订阅

订阅专栏

Logistic Regression

文章目录

Logistic Regression
- $L o g i s t i c$ 回归
- - $L o g i s t i c$ 的损失函数是什么？如何拟合 $L o g i s t i c$ 的参数 $w$ ？
  - - 最大似然估计角度解释
    - 交叉熵角度解释

$L o g i s t i c$ 回归

$L o g i s t i c$ 回归是一种常见的用于处理二分类问题的线性分类模型。

所谓线性分类模型：决策边界为线性超平面

模型：
$\hat{y} = \sigma(wx+b)$

$\sigma()$ 为激活函数，作用是将线性函数的值域从实数区间“挤压”到 $(0, 1)$ 之间，可用来表示概率。 $\sigma = \frac{1}{1+e^{-z}}$
$\hat{y}$ 的意义为 $p (y = 1∣ x, w)$ 即给定 $x$ 和参数 $w$ 时 $y = 1$ 的估计概率。
若 $\hat{y}>0.5$ ，即 $w x + b > 0$ ，得出分类 $y = 1$ 。

参考线性回归损失函数：
$(\hat{y} - y)^2 \\ 代价函数 cost = \frac{1}{N}\sum_{n=1}^N(\hat{y_n}-y_n)^2$

$L o g i s t i c$ 的损失函数是什么？如何拟合 $L o g i s t i c$ 的参数 $w$ ？

$L o g i s t i c$ 回归采用交叉熵 $(BCE\ loss)$ 作为损失函数，并使用梯度下降法对参数进行优化

最大似然估计角度解释

似然函数 $L(\theta)$ 是描述不同 $\theta$ ，出现这个样本点 $\overrightarrow{y}|x$ 的概率。故要求使 $L(\theta)$ 最大的 $\theta$ (即拟合参数 $\theta$ 的过程)

在这里插入图片描述

交叉熵角度解释

KL散度是衡量两个概率分布的差异

对于 $L o g i s t i c$ 回归，假设真实的 $l ab e l$ 概率分布为 $P (x)$ ,模型预测的为 $Q (x)$ ，那么就可以用KL散度衡量预测值与真实值概率模型之间的差异；

KL散度公式：

$D_{KL}(P||Q) = \sum_{i=1}^m p_i((-logq_i) - (-logp_i))\\ =\sum_{i=1}^m p_i(-logq_i) - \sum_{i=1}^m p_i(-logp_i) = H(P,Q) - H(P)$

然后 $H (P)$ (真实值的熵)为固定值，所以 $H (P, Q)$ 交叉熵越小，KL散度越大，预测值与真实值之间差异越大，故选取交叉熵作为 $l o g i s t i c$ 回归的损失函数。

交叉熵公式：

$-\sum_{i=1}^m p_i\ logq_i$

$l o g i s t i c$ 回归中 $m = 2$ ，得到二元交叉熵：
$p_1(logq_1) + p_2(logq_2) )\\ = -( p_1(logq_1) + (1-p_1)(log(1-q_2)))\\ = -(ylog(h_\theta (x)) + (1-y)log(1-h_\theta (x)))$