Softmax计算技巧

FibonacciCode

已于 2023-01-12 16:14:47 修改

阅读量795

点赞数

分类专栏：深度学习算法文章标签：人工智能深度学习

于 2023-01-12 16:09:45 首次发布

本文链接：https://blog.csdn.net/yuebowhu/article/details/128659716

版权

博客探讨了在softmax回归中遇到的数值稳定性问题，包括exp函数可能导致的上溢和下溢，以及如何通过减去最大值进行预处理来解决这些问题。此外，还介绍了在计算log(y^j)时避免下溢的数学技巧。该文强调在数值计算中寻找等价表达式的重要性。

摘要由CSDN通过智能技术生成

初始做法

在softmax回归中，定义
$\hat{\mathbf{y}} = \mathrm{softmax}(\mathbf{o})\quad \text\quad \hat{y}_j = \frac{\exp(o_j)}{\sum_k \exp(o_k)} \text\quad (1)\\ (i=1...n,k=1...q)$
对于任何标签 $y$ 和模型预测 $\hat{y}$ ，损失函数为:
$l(\mathbf{y}, \hat{\mathbf{y}}) = - \sum_{j=1}^q y_j \log \hat{y}_j \text\quad (2)$
将 $(1)$ 代入 $(2)$ 中：
$\begin{split}\begin{aligned} l(\mathbf{y}, \hat{\mathbf{y}}) &= - \sum_{j=1}^q y_j \log \frac{\exp(o_j)}{\sum_{k=1}^q \exp(o_k)} \\ &= \sum_{j=1}^q y_j \log \sum_{k=1}^q \exp(o_k) - \sum_{j=1}^q y_j o_j\\ &= \log \sum_{k=1}^q \exp(o_k) - \sum_{j=1}^q y_j o_j. \end{aligned}\end{split} \text\quad (3)$