逻辑回归梯度求解复习

在下雨599

已于 2023-11-24 16:21:11 修改

阅读量56

点赞数

分类专栏：模式识别复习文章标签：机器学习学习

于 2023-11-24 16:17:01 首次发布

本文链接：https://blog.csdn.net/weixin_55956746/article/details/134598107

版权

模式识别复习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言
一、对数几率回归模型
二、损失函数
总结

前言

本文主要记录对数几率回归模型的学习和推导过程。

提示：以下是本篇文章正文内容，下面案例可供参考

一、对数几率回归模型

示例：对数几率回归模型又叫逻辑回归（LogisticRegression）。

在分类任务中，在给定输入x的情况下，概率密度函数为：

$p(y|x;\mu)=\mu(x)^y(1-\mu(x))^{1-y}$

期望 $\mu(x)$ 如何表示？最简单的模型：线性模型

$\mu(x)=w^\mathrm{T}x$

但是 $\mu(x)$ 表示给定 $x$ 的情况下， $y = 1$ 的概率，取值为区间[0,1]。
所以，将 $w^\mathrm{T}x$ 的输出范围转换到[0,1]:
利用 sigmoid函数 (S形函数)可以实现该转换：
Sigmoid函数为：

$\frac{d\sigma(z)}{dz}=\sigma(z)(1-\sigma(z))$
在这里插入图片描述

二、损失函数

1.交叉熵损失

对数几率模型：
$y|x\thicksim\mathrm{Bernoulli}(\mu(x))， p(y|x;\mu(x))=\mu(x)^y(1-\mu(x))^{(1-y)} ，其中 \mu(x)=\sigma(w^\mathrm{T}x^\mathrm{~})$
log似然：
$\begin{aligned}\ell(\mu)&=\ln p(\mathcal{D})=\sum_{i=1}^N\ln p(y_i|x_i)\\&=\sum_{i=1}^N\ln\bigl(\mu(x_i)^{y_i}(1-\mu(x_i))^{(1-y_i)}\bigr)\end{aligned}$
交叉熵损失：
定义负log似然损失又叫交叉熵损失为：

$L\bigl(y,\mu(x)\bigr)=-y\ln\bigl(\mu(x)\bigr)-(1-y)\ln\bigl(1-\mu(x)\bigr)$
对数几率回归的损失函数采用交叉熵损失

$L\big(y,\mu(x)\big)=-y\ln\big(\mu(x)\big)-(1-y)\ln\big(1-\mu(x)\big)$

其中 $y$ 为真值， $\mu(x)=\sigma(w^\mathrm{T}x^\mathrm{~})$ 为预测值为1的概率。
N个样本上的目标函数如下：
$J(w,b)=\frac1N\sum_{i=1}^NL(\hat{y_i},y_i)=-\frac1N\sum_{i=1}^N[y_iln(\hat{y_i})+(1-y_i)ln(1-\hat{y_i})]$

2.加入正则项的目标函数

$J(w,b)=\frac1N\sum_{i=1}^NL(\hat{y_i},y_i)=-\frac1N\sum_{i=1}^N[y_iln(\hat{y_i})+(1-y_i)ln(1-\hat{y_i})]$
加入正则项：
实现的目标函数为
$J(w,b,\lambda)=C\sum_{i=1}^N L\bigl(y_i,\mu(x_i;w)\bigr)+\lambda R(w)$ $\text{正则项}R(\mathbf{w})\text{可为L1正则、L2正则、L1正则+L2正则}$ 正则越少。其中超参数 $C$ 起到正则作用， $C$ 越大，正则越少。

3.求梯度

以L2正则为例：
$\text{正则项取L2正则}:R(\mathbf{w})=\sum_{j=1}^Dw_j^2=w^Tw$
对于单个样本：
目标函数为 $J(w,b,\lambda)=-y\ln\bigl(\mu(x)\bigr)-(1-y)\ln\bigl(1-\mu(x)\bigr)+\lambda \sum_{j=1}^Dw_j^2$
首先给出预备知识：
$\begin{gathered} \mu(x,w)=\sigma(w^{\mathrm{T}}x+b) \\ \sigma(z)=\frac{1}{1+e^{-z}} \\ \frac{d\sigma(z)}{dz}=\sigma(z)(1-\sigma(z)) \\ \frac{\partial\left(\boldsymbol{w}^\mathrm{T}\boldsymbol{x +b}\right)}{\partial\boldsymbol{w}}=x \\ \frac{\partial\left(\boldsymbol{w}^\mathrm{T}\boldsymbol{x +b}\right)}{\partial\boldsymbol{b}}=1 \end{gathered}$
第一步：
$\begin{aligned} \frac{\partial J}{\partial u(x)}& =-\frac\partial{\partial u(x)}[ylogu(w,x)+(1-y)log(1-u(x))] & \\ &=-\frac y{u(x)}+\frac{1-y}{1-u(x)} \end{aligned}$
其次：
$\begin{gathered} \begin{aligned}\frac{d\sigma(z)}{dz}=u(x)(1-u(x))\end{aligned} \\ \begin{aligned}\frac{\partial z(w,b)}{\partial w}=-\frac\partial{\partial w}(w^Tx+b)=x\end{aligned} \\ \frac{\partial z(w,b)}{\partial b}=-\frac\partial{\partial b}(w^Tx+b)=1 \end{gathered}$
又：
$\begin{aligned}\frac{\partial R(w)}{\partial w}&=2w\\\frac{\partial R(w)}{\partial b}&=0\end{aligned}^{\omega}$
根据求导链式法则得到：
$\begin{aligned}\frac{\partial J}{\partial w}&=\frac{\partial J}{\partial u(x)}\frac{d\sigma(z)}{dz}\frac{\partial z(w,b)}{\partial w}=(u(x)-y)x+2\lambda w\\\frac{\partial J}{\partial b}&=\frac{\partial J}{\partial u(x)}\frac{d\sigma(z)}{dz}\frac{\partial z(w,b)}{\partial b}={}^{}u(x)-y\end{aligned}$