损失函数基础——交叉熵函数二分类推导整理

最新推荐文章于 2022-11-12 21:48:02 发布

番茄炒鸡蛋又要起名字了

最新推荐文章于 2022-11-12 21:48:02 发布

阅读量626

点赞数

文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_43903820/article/details/104440431

版权

二分类推导

Logistics Regression

先从线性回归开始
$\left( x ^ { i } \right) = w _ { 0 } + w _ { 1 } x _ { 1 } + w x _ { 2 } + \ldots + w _ { n } x _ { n }$

$\left( x ^ { j } \right) = w ^ { T } x _ { i } = W ^ { T } X$

$\left[ \begin{array} { c } { 1 } \\ { x _ { 1 } } \\ { \dots } \\ { x _ { n } } \end{array} \right] \quad W = \left[ \begin{array} { c } { w _ { 0 } } \\ { w _ { 1 } } \\ { \dots } \\ { w _ { n } } \end{array} \right]$
针对线性分类器而言，他解决的是回归问题，为了能更好进行分类问题的探讨，这里就引出了 Logistics 回归。

基础知识

逻辑回归是假设数据服从 Bernoulli 分布（抛硬币），因此LR属于参数模型。

其中是对于线性模型，加上了一个 Sigmoid 函数，这个也是神经网络的激活函数，拥有很多良好的特性。1. 拥有很好的激活特性，2. 求导很容易，这一点在 GD 上太重要了，对于 NN 的 BPTT 也起到了极为重要的作用。

LR 目标函数定义： $\left( w ^ { T } x \right)$
其中 Sigmoid 函数 g(z) 的定义： $\frac { 1 } { 1 + e ^ { - z } }$
Sigmoid 函数求导 g‘(z) 为：
$\begin{aligned} g ^ { \prime } ( z ) & = \frac { d } { d z } \frac { 1 } { 1 + e ^ { - z } } \\ & = \frac { 1 } { \left( 1 + e ^ { - z } \right) ^ { 2 } } \left( e ^ { - z } \right) \\ & = \frac { 1 } { \left( 1 + e ^ { - z } \right) } \cdot \left( 1 - \frac { 1 } { \left( 1 + e ^ { - z } \right) } \right) \\ & = g ( z ) ( 1 - g ( z ) ) \end{aligned}$

似然函数

参考三个概念一个例子。
三个概念：伯努利分布，似然函数，最大似然估计
一个例子：扔硬币
这里的参数 $w$ 是我们要估计的参数，似然函数正比于我们的概率函数
$\propto P ( x | w )$ ，累乘后得到整体的似然函数表达：
$\prod P \left( \mathrm { y } _ { i } = 1 | \mathrm { x } _ { i } \right) ^ { y _ { i } } \left( 1 - P \left( \mathrm { y } _ { i } = 1 | \mathrm { x } _ { i } \right) \right) ^ { 1 - y _ { i } }$ $\begin{aligned} L ( w ) & = p ( Y | w ,X ) \\ & = \prod _ { i = 1 } ^ { m } \left( h _ w \left( x ^ { ( i ) } \right) \right) ^ { y ^ { ( i ) } } \left( 1 - h _ w \left( x ^ { ( i ) } \right) \right) ^ { 1 - y ^ { ( i ) } } \end{aligned}$
累乘的形式不利于进行优化分析，这里将似然函数取对数，得到对数似然函数，作为我们的最终优化目标，运用极大似然估计来求得最优的 $w$
$\begin{aligned} \ell ( w ) & = \log L ( w ) \\ & = \sum _ { i = 1 } ^ { m } y ^ { ( i ) } \log h \left( x ^ { ( i ) } \right) + \left( 1 - y ^ { ( i ) } \right) \log \left( 1 - h \left( x ^ { ( i ) } \right) \right) \end{aligned}$

最优化求解推导

利用链式法对目标函数则进行求导以求得最优参数。
$\frac { \partial } {w _ { j } } J ( w) = \frac { \partial J ( w ) } { \partial g \left( w ^ { T } x \right) } * \frac { \partial g \left( w ^ { T } x \right) } { \partial w ^ { T } x } * \frac { \partial w ^ { T } x } { \partial w _ { j } }$
分三部分求导：

第一部分
$\frac { \partial J ( \theta ) } { \partial g \left( \theta ^ { T } x \right) } = y * \frac { 1 } { g \left( \theta ^ { T } x \right) } + ( y - 1 ) * \frac { 1 } { 1 - g \left( \theta ^ { T _ { x } } x \right) }$

第二部分
$\frac { \partial g \left( w ^ { T } x \right) } { \partial w ^ { T } x } = g \left( w^ { T } x \right) \left( 1 - g \left(w^ { T } x \right) \right)$

第三部分
$\frac { \partial w ^ { T } x } { w _ { j } } = \frac { \partial J \left( w _ { 1 } x _ { 1 } +w _ { 2 } x _ { 2 } + \cdots w _ { n } x _ { n } \right) } { \partial w _ { j } } = x _ { j }$

整理得到最终形式
$\begin{aligned} \frac { \partial } { \partial w_ { j } } \ell (w ) & = \left( y \frac { 1 } { g \left(w ^ { T } x \right) } - ( 1 - y ) \frac { 1 } { 1 - g \left(w^ { T } x \right) } \right) \frac { \partial } { \partial w _ { j } } g \left( w ^ { T } x \right) \\ & = \left( y \frac { 1 } { g \left( w ^ { T } x \right) } - ( 1 - y ) \frac { 1 } { 1 - g \left( w ^ { T } x \right) } \right) g \left(w ^ { T } x \right) \left( 1 - g \left( w^ { T } x ) \right) \right) \frac { \partial } { \partial w _ { j } } w ^ { T } x \\ & = \left( y \left( 1 - g \left( w^ { T } x \right) \right) - ( 1 - y ) g \left( w ^ { T } x \right) \right) x _ { j } \\ & = \left( y - h _ {w } ( x ) \right) x _ { j } \end{aligned}$
因此总的 θ 更新公式为:
$\alpha \left( y ^ { ( i ) } - h _ { w } \left( x ^ { ( i ) } \right) \right) x _ { j } ^ { ( i ) }$
总结：逻辑回归的优化目标是极大化对数似然估计，采用梯度上升来学习及更新参数 $w$ 向量的值。

番茄炒鸡蛋又要起名字了

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
损失函数基础——交叉熵函数二分类推导整理

二分类推导Logistics Regression先从线性回归开始hw(xi)=w0+w1x1+wx2+…+wnxnh _ { w } \left( x ^ { i } \right) = w _ { 0 } + w _ { 1 } x _ { 1 } + w x _ { 2 } + \ldots + w _ { n } x _ { n }hw(xi)=w0+w1x1+wx2+…+...
复制链接

扫一扫