关于Logistic Regression、Softmax Loss和Cross-entropy的随笔

最新推荐文章于 2024-04-17 11:57:45 发布

ycsun_

最新推荐文章于 2024-04-17 11:57:45 发布

阅读量3.8k

点赞数 2

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/yuechuen/article/details/70953796

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

最近看深度学习图像分类的相关知识的时候，发现对于Softmax损失函数的相关概念没有搞明白，因此讲设计到的相关知识一些梳理，供大家参考。

本文以CIFAR-10数据集图片分类任务为例展开，定义第 $i$ 个输入样本 $x_{i}$ ，输出 $y_{i}$ ，图片共有10类（ $k=0,1,...,c, c=9$ ）

Logistic Regression

Logistic Regression作为经典的二分类问题（样本label为0或1）的分类器，本质是通过Sigmoid函数将输入向量 $x$ 映射到样本属于正负样本的概率值:

P (y = 1 | x) = f (x) = 1 1 + e - x

$P\left( y=1|x\right)=f\left( x\right) =\dfrac {1} {1+e^{-x}}$

P (y = 0 | x) = 1 - f (x)

$P\left( y=0|x\right)=1-f\left( x\right)$
那么样本

x $x$ 属于观测值的概率值即为：

p (y | x) = f (x) y + (1 - f (x)) 1 - y

$p\left( y|x\right) =f\left( x\right)^{y}+(1-f\left( x\right))^{1-y}$
显然我们希望上式最大，即函数输出尽可能接近于真实label，那么假设有

m $m$ 样本，并假设独立同分布（这在机器学习的一般问题中是成立的，因为样本已经给定，他们互不影响），那么

m $m$ 个样本的联合分布（可以理解为

m $m$ 个样本都分类正确的概率）即为：

L (θ) = \prod i = 1 m p (y i | x i)

$L\left( \theta \right) =\prod _{i=1}^{m}p\left( y_{i}|x_{i}\right)$
Logistic Regression核心的思想是 最大似然估计显然希望上式最大，即等价于

lnL(θ) $\ln ^{L\left( \theta \right) }$ 最大，即等价于

−lnL(θ) $-\ln ^{L\left( \theta \right) }$ 最小，这就得到了Andrew Ng课程中的损失函数形式：

Softmax (Loss)

上面介绍的是二分类的问题，可以用Logistic Regression解决，对于多分类问题，例如CIFAR-10图像分类问题，就需要多输出的Softmax函数形式。
以CIFAR-10数据集为例，最终网络输出层 $y$ 一定是10个节点，分布代表10个类别，由于输出层一般是前一层通过全连接得到，那么 $y\in R^{1\times 10}$ ，Softmax作用就是将连续值 $y$ 通过归一化转换为概率值：

P (y i | x) = \sum k e f y i e f i

$P\left( y_{i}|x\right) =\sum_{k} \dfrac {e^{f_{y_{i}}}} {e^{f_{i}}}$
上式中

yi $y_{i}$ 代表第

i $i$ 个样本的真实类别

P(yi|x) $P\left( y_{i}|x\right)$ 就代表了网络对于输入样本属于每一类别赋予的概率值，最大值所属的类别即是该输入样本的类别。第i个样本的损失函数可以定义为：

L i = - l o g (e f y i \sum k e f k)

$L_{i} =-log(\dfrac {e^{f_{y_{i}}}} {\sum_{k}e^{f_{k}}})$
对于m个样本的总体Loss可以写成：

L i = - 1 m [\sum i = 1 n \sum k = c 1 (y = k) l o g (e f y i \sum k e f k)]

$L_{i} =-\dfrac {1} {m}\left[\sum _{i=1}^{n}\sum _{k=}^{c}1\left( y=k\right)log(\dfrac {e^{f_{y_{i}}}} {\sum_{k}e^{f_{k}}}) \right]$
关于Logistic Regression和Softmax Loss的优化问题这里就不展开了，具体可以参考 UFLDL教程。

注：多个二分类的Logistic Regression也可以达到多分类，我们判断选择Softmax还是Logistic Regression的标准是样本的label是否存在重叠，例如判断人的种族两种方法都可以，因为一个人只可能属于一种种族；但是判断图片风格（风景照、户外照、室内照、人物照）则只能用Logistic Regression，因为一张照片可能属于多类。

Cross-entropy

为了更好得理解Softmax Loss，可以从交叉熵角度直观思考。首先，交叉熵是用来表述真实样本概率分布 $p$ 和预测样本概率分布 $q=P\left( y|x\right)$ 的差异度：

H (p, q) = - \sum p (x) log q (x)

$H\left( p,q\right) =-\sum p\left( x\right) \log q\left( x\right)$
也可以写成：

H (p, q) = H (p) + D K, L (p ∥ q)

$H\left( p,q\right) =H\left( p\right) +D_{K,L}(p\parallel q)$
其中

H(p) $H\left( p\right)$ 是

p=(0,0,…,1,0…,0) $p=\left( 0,0,\ldots ,1,0\ldots ,0\right)$ 的熵（显然值为0），

DK,L(p∥q) $D_{K,L}(p\parallel q)$ 为 相对熵/KL散度，我们的目标是最小化

DK,L(p∥q) $D_{K,L}(p\parallel q)$ 。

Softmax Loss和其他机器学习任务中用到的都是 $D_{K,L}(p\parallel q)$ 相对熵的概念，而不是交叉熵

以CIFAR-10图像分类任务为例，假设第i个样本图片属于第j类，即 $p_{i}=\left( 0,0,\ldots ,1,0\ldots ,0\right)$ ，而经过Softmax得到的 $q$ 的形式为 $q_{i}=e^{fy_{i}} / \sum _{k}e^{f_k},K=0,1,\ldots ,9$ , 显然q中的都为[0,1]的值，最理想的情形就是 $p=q$ ，说明模型不仅分类正确，而且置信度100%，那么Loss应该0，否则q和p差的越大那么Loss应该越大。
w我们将 $D_{K,L}(p\parallel q)$ 继续化简：

D K, L (p ∥ q) = H (p, q) - H (p) = - \sum p (x) log q (x) + \sum p (x) log p (x) = - \sum p (x) log p (x) / q (x)

$\begin{align} D_{K,L}(p\parallel q)&=H\left( p,q\right) -H\left( p\right) \\ &= -\sum p\left( x\right) \log q\left( x\right)+\sum p\left( x\right) \log p\left( x\right)\\ &=-\sum p\left( x\right) \log p\left( x\right)/q\left( x\right) \end{align}$
然后把上式的

p(x) $p(x)$ 和

q(x) $q(x)$ 替换成

efyi $e^{f_{y_{i}}}$ 和

efi $e^{f_{i}}$ 就得到Softmax Loss的表达式啦。

ycsun_

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
关于Logistic Regression、Softmax Loss和Cross-entropy的随笔

最近看深度学习图像分类的相关知识的时候，发现对于Softmax损失函数的相关概念没有搞明白，因此讲设计到的相关知识一些梳理，供大家参考。本文以CIFAR-10数据集图片分类任务为例展开，定义第ii 个输入样本xix_{i} ，输出yiy_{i} ，图片共有10类（k=0,1,...,c,c=9k=0,1,...,c, c=9）Logistic RegressionLogistic Regre
复制链接

扫一扫