线性回归、Softmax和多层感知机数学 #d2l#

最新推荐文章于 2024-07-02 21:28:54 发布

Ahacad

最新推荐文章于 2024-07-02 21:28:54 发布

阅读量165

点赞数

本文链接：https://blog.csdn.net/weixin_45252734/article/details/104308080

版权

本文介绍了深度学习的基础模型，包括线性回归的预测公式、平方损失函数和梯度下降算法；Softmax函数用于将输出转化为概率分布，并解释了交叉熵损失函数；此外，还探讨了多层感知机，特别是激活函数如ReLU、Sigmoid和tanh及其导数。

摘要由CSDN通过智能技术生成

线性回归

$\bm{\hat{y}} = \bm{X}\bm{w}+b$
其中 $\hat{y}$ 为最终预测值， $X$ 为特征值， $w$ 为权重， $b$ 为偏差,也即:
$\hat{y} = \begin{bmatrix} \hat{y}^{(1)} \\ \hat{y}^{(2)} \\ \hat{y}^{(3)} \end{bmatrix} ,\quad \bm{X} = \begin{bmatrix} x_1^{(1)} & x_2^{(1)} \\ x_1^{(2)} & x_2^{(2)} \\ x_1^{(3)} & x_2^{(3)} \end{bmatrix}, \quad \bm{w} = \begin{bmatrix} w_1 \\ w_2 \end{bmatrix}$
使用平方损失函数，( $y$ 为真实值)
$\ell{}(\bm{\theta}) = \frac1{2n} (\hat{y}-y)^T(\hat{y}-y)$
迭代公式为：
$\bm{\theta'} = \bm{\theta} - \frac{\eta}{\mathcal{B}} \sum_{i \in \mathcal{B}} \nabla_{\theta} \ell^{(i)}(\bm{\theta})$
其中 $\mathcal{B}$ 为每个小批量， $\eta$ 为学习率。

Softmax

通过Softmax将输出值转化为 $0$ ~ $1$ 的值：
$\hat{y_i} = \frac{e^{(o_1)}}{\sum_{i=1}^n e^{o_i}}$
交叉熵损失：
$H(\bm{y}^{(i)}, \hat{\bm{y}}^{(i)}) = - \sum_{j=1}^{n} {y}_j^{(i)} \log \hat{y}^{(i)}$
而只有预测正确的 $y_j$ 为 $1$ ，其它皆为 $0$ ，所以实际上为 $\log \hat{y}^{(i)}$ 。

多层感知机

在输入层与输出层之间可以插入许多所谓隐藏层，为避免多隐藏层叠加无效，引入激活函数：Sigmoid，ReLU，tanh，以及ReLU的变体等等。
$\\ sigmoid(x)=\frac{1}{1+e^x} \\ tanh(x) = \frac{1-e^{-2x}}{1+e^{-2x}}$
而它们的导数为：
$Relu'(x)=\begin{cases} 1& x>0 \\ 0& x\le0 \end{cases} \\ sigmoid'(x) = sigmoid(x)(1-sigmoid(x)) \\ tanh'(x) = 1-tanh^2(x)$