动手深度学习-3.4 softmax回归

Ryan-Lily

已于 2023-07-02 19:15:15 修改

阅读量108

点赞数

文章标签：深度学习回归人工智能

于 2023-07-02 12:12:02 首次发布

本文链接：https://blog.csdn.net/ye13213/article/details/131498518

版权

分类包含两种情况：1.我们只关心样本属于哪个列别(硬分类)；2.我们希望得到样本属于每个类别的概率(软分类)。

3.4 softmax回归

3.4.1 分类问题

表示与类别之间的自然顺序无关的分类标签的方法：独热编码，类别对应的分量设置为1，其他所有分量设置为0。

3.4.2 网络架构

为了解决线性模型的分类问题，我们需要和输出一样多的仿射函数，每个输出对应于每个类别的条件概率。 softmax回归网络
通过向量形式表达运算过程为 $\mathbf{o=Wx+b}$

3.4.3 全连接层的参数开销

具有 $d$ 个输入和 $q$ 个输出的全连接层的参数开销为 $\mathcal{O} (dq)$ ，可以将d个输入转换为q个输出的参数开销减少到 $\mathcal{O}(\frac{dq}{n})$ ，其中超参数 $n$ 可以由我们灵活指定。

3.4.4 softmax运算

softmax函数：1.能够将为规范化的预测变换为非负数并且总和为1；2.不会改变未规范化的预测之前的大小顺序；3.让模型保持可导的性质。
$\widehat{\mathbf{y}}=softmax(\mathbf{o})，其中\widehat{y} _{j} =\frac{exp(o _{j} )}{ {\textstyle \sum_{k}^{}}exp(o _{j}) }$
且 $\underset{j}{argmax}\ \widehat{y}_{j} = \underset{j}{argmax}\ o_{j}$

3.4.5 小批量样本的矢量化

为了提高计算下效率并且充分利用GPU，我们通常会对小批量样本的数据执行矢量计算。假设小批量样本的特征为 $\mathbf{X} \in R^{n\times d}$ ，权重为 $\mathbf{W} \in R^{d\times q}$ ，偏置为 $\mathbf{b} \in R^{1\times q}$ 。softmax回归的矢量计算表达式为：
$\mathbf{O=XW+b}$ $\widehat{\mathbf{Y} } =softmax(\mathbf{O} )$

3.4.6 损失函数

3.4.6.1 对数似然

softmax函数给出了一个向量 $\widehat{\mathbf{y} }$ ，我们可以将其视为“对给定任意输入 $\mathbf{x}$ 的每个类的条件概率”。假设整个数据集{X, Y}具有n个样本，则最大似然函数为：
$P(Y|X)=\prod_{i=1}^{n} P(y^{(i)}|x^{(i)})$
根据最大似然估计，我们最大化 $P\mathbf{(Y|X)}$ ，相当于最小化负对数似然：
$-logP\mathbf{(Y|X)}=\sum_{i=1}^{n}-logP(\mathbf{y} ^{(i)}|\mathbf{x} ^{(i)}) =\sum_{i=1}^{n}l(\mathbf{y} ^{(i)}, \mathbf{\widehat{y} } ^{(i)})$
其中，对于任何标签 $\mathbf{y}$ 和模型预测 $\widehat{\mathbf{y}}$ ，损失函数为：
$l(\mathbf{y} , \widehat{\mathbf{y}} )=-\sum_{j=1}^{q}y_{j} log\widehat{y} _{j }$

3.4.6.2 softmax及其导数

利用softmax的定义，我们得到：
$l(\mathbf{y} , \widehat{\mathbf{y} } )=-\sum_{j=1}^{q}y_{j}log\frac{exp(o_{j} )}{ {\textstyle \sum_{k=1}^{q}exp(o_{k} )} } \newline \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ = \sum_{j=1}^{q}y_{j}log\sum_{k=1}^{q}exp(o_{k})-\sum_{j=1}^{q}y_{i} o_{j}$
相对于任何未规范化的预测 $o_{j}$ 的导数：
$\partial_{ o_{j} } l(\mathbf{y,\widehat{y}} )=\frac{exp(o_{j} )}{ {\textstyle \sum_{k=1}^{q}}exp(o_{k} ) } -y_{j} = softmax(\mathbf{o} )_{j} -y_{j}$