softmax函数的正推原理——softmax前世今生系列(1)

最新推荐文章于 2025-03-23 22:01:21 发布

日拱一两卒

最新推荐文章于 2025-03-23 22:01:21 发布

阅读量8.8k

点赞数 41

分类专栏：人工智能专题研究文章标签： softmax推导 softmax原理概念 softmax数学意义 softmax分类 sfotmax层

本文链接：https://blog.csdn.net/yangwohenmai1/article/details/95812491

版权

人工智能专题研究专栏收录该内容

24 篇文章

订阅专栏

导读：

softmax的前世今生系列是作者在学习NLP神经网络时，以softmax层为何能对文本进行分类、预测等问题为入手点，顺藤摸瓜梳理了整个神经网络工作的基本原理。其中包含：

1.softmax函数的正推原理，softmax的代数和几何意义，softmax为什么能用作分类预测，softmax链式求导的过程。

2.从数学的角度上研究了神经网络为什么能通过反向传播来训练网络的原理，神经网络的权重更新原理，权重正则化的原理。

3.结合信息熵理论，对二元交叉熵为何适合作为损失函数进行了探讨。

通过对本系列的学习，你可以全面的了解softmax的来龙去脉。如果你尚不了解神经网络，通过本系列的学习，你也可以学到神经网络反向传播的基本原理。学完本系列，基本神经网络原理就算式入门了，毕竟神经网络基本的网络类型就那几种，很多变种，有一通百通的特点。

网上对softmax或是神经网络反向传播知识的整理，基本都通过一个长篇大论堆积出来，一套下来面面俱到但又都不精细。本文将每个环节拆开，分别进行详细介绍，即清晰易懂，又减轻了阅读负担，增加可读性。本文也借鉴了其他作者的内容，并列举引用，希望大家在学习过程中能有所收获

本章内容提要：

softmax函数常用在解决多分类的问题上，就是如何将一批数据分成多个不同的类。在刚学习softmax函数时，网上资料一上来就是下面这个公式，

$\Phi =\frac{^{e^{\eta _{i}}}}{\sum_{j=1}^{k}e^{\eta _{j}}}$

于是很费解这个奇怪的公式时从何而来，为什么这样的一个公式就可以做多分类的概率预测函数？让我们来一起研究一下他的数学意义，并将其推导出来。

一、定义一个分类模型

在探讨多分类问题时，我们首先要引入一个重要的分类模型，就是形如下面这个向量

$T=\begin{vmatrix} 0\\ 0\\ 1\\ 0\\ 0 \end{vmatrix}$

如果你学过onehot code编码的话就会知道，这个T向量代表一个“东西”有“五种分类”的可能，分别对应向量中的五个位置，哪个位置上的数字是1，就说明这个东西属于哪一类。一个向量中只有一位可以为1，其他位置都为0. 那么显然，上图T对应的“东西”就属于“第三类”，因为只有三号位置上的值为1，其余位置上都为0.

利用这个模型，就很容易的把逻辑上的分类问题转换成数学上的向量问题了。

我们给向量中的每个元素定义一个通项式，

$T_{(y)i}$

对于T向量中的每个元素来说，表达式就是

$\left\{\begin{matrix} T_{(y)1} = 0\\ T_{(y)2} = 0\\ T_{(y)3} = 1\\ T_{(y)4} = 0\\ T_{(y)5} = 0 \end{matrix}\right.$

二、定义一个概率模型

有了一个可以对分类问题进行描述的数学模型T，我们再来构建一个可以用于计算分类的概率模型。

结合文章第一部分的例子，对于一个“东西”来说，他有五种分类可能，属于“第一类”的概率为 $\Phi _{1}$ 、属于“第二类”的概率为 $\Phi _{2}$ 、……属于”第五类“概率为 $\Phi _{5}$ ，即:

$P( y = i ) = \Phi _{i}$

那么根据常识有：

$\Phi _{1}+\Phi _{2}+\Phi _{3}+\Phi _{4}+\Phi _{5} = 1$

于是我们可以推出描述一个“东西”属于k种类型中的某一类的概率表达式：

$\sum_{i=1}^{k}\Phi _{i} = \Phi _{1} + \Phi _{2} + \Phi _{3} +......+ \Phi _{k-1} + \Phi _{k} =1$

很好理解，一个“东西”肯定属于几种分类中的一种，那么所有分类的概率之和则为1，即：

$\sum_{i=1}^{k}\Phi _{i} = 1$

结合文章第一部分和第二部分的两个例子:

$\Phi _{i}$ 表示的是向量 $T$ 中，第 $T_{(y)i}$ 个元素等于1的概率。

因此可以求得期望E：

$E[T_{(y)i}] = T_{(y)1}*\Phi _{1} + T_{(y)2}*\Phi _{2} + T_{(y)3}*\Phi _{3} + T_{(y)4}*\Phi _{4} + T_{(y)5}*\Phi _{5}$

而向量 $T$ 中只有第三项为1，其余均为0，所以：

$E[T_{(y)i}] = 0*\Phi _{1} + 0*\Phi _{2} + 1*\Phi _{3} + 0*\Phi _{4} + 0*\Phi _{5} = \Phi _{3}$

即期望值等于概率分布：

$E[T_{(y)i}] = P(y=i) = \Phi _{i}$

三、引入一个指示函数概念

此时我们要引入一个指示函数 I 的概念：

这个函数的意义是，当 I 函数括号内表达式为真时，I 函数值为1。当 I 数括号内表达式为假时，I 函数值为0。所以，T 向量中的某个元素 $T_{(y)i}$ 的值还可以表示成：

即当y=i时:

$I(y=i) = I(i = i) = 1$

利用这个概念，我们将多项式分布转换为指数分布族表达式，这一堆东西看起来很复杂，其实并不难理解。看不懂也没关系，继续往下看后面的注释

其中：

$\eta = \begin{bmatrix} \eta _{i} = log_{e}\frac{\Phi _{1}}{\Phi _{k}}\\ \eta _{i} = log_{e}\frac{\Phi _{2}}{\Phi _{k}}\\ .\\ .\\ .\\ \eta _{i} = log_{e}\frac{\Phi _{k-1}}{\Phi _{k}} \end{bmatrix}$

因此我们得到一个很有用的表达式：

$\eta _{i} = log_{e}\frac{\Phi _{i}}{\Phi _{k}}$

这里补充一下：

多项式分布为什么能转换为指数分布族表达式？我们知道指示函数I 只有两个结果，即0或1，

$I = \left\{\begin{matrix} 0\\ 1 \end{matrix}\right.$

又因为指数计算有如下基本定义：

$\left\{\begin{matrix} n^{0} = 1\\ n^{1} = n \end{matrix}\right.$

所以当y = i时，有：

$P(y,\Phi ) = \Phi _{1}^{I\left \{ y = 1 \right \}} * \Phi _{2}^{I\left \{ y = 2 \right \}} * ..... *\Phi _{i}^{I\left \{ y = i \right \}} *...... * \Phi _{k}^{I\left \{ y = k \right \}}$