随机梯度下降

最新推荐文章于 2021-11-05 15:32:01 发布

酸菜余

最新推荐文章于 2021-11-05 15:32:01 发布

阅读量214

点赞数

分类专栏：深度学习与PyTorch入门实战教程

本文链接：https://blog.csdn.net/weixin_43821376/article/details/103810617

版权

深度学习与PyTorch入门实战教程专栏收录该内容

13 篇文章 1 订阅

订阅专栏

激活函数

激活函数用来加入非线性因素，解决线性模型所不能解决的问题

原始激活函数：阈值函数（大于0为1，小于0为0）
缺点不可导

改进激活函数：

sigmoid(0~1之间)
$f(x)=\sigma(x)=\frac{1}{1+e^{-x}}$
优点是可导且易导：
$\sigma^{\prime}=\sigma(1-\sigma)$
缺点是会在两端会出现长时间loss保持不变

torch.sigmoid(a)

Tanh
$\begin{aligned} f(x) &=\tanh (x)=\frac{\left(e^{x}-e^{-x}\right)}{\left(e^{x}+e^{-x}\right)} \\ &=2 \operatorname{sigmoid}(2 x)-1 \end{aligned}$
常用于RNN
ReLU
目前使用最多，起到奠基作用的激活函数，一般做研究优先使用ReLU激活函数
$f(x)=\left\{\begin{array}{ll} {0} & {\text { for } x<0} \\ {x} & {\text { for } x \geq 0} \end{array}\right.$
优点：减少了梯度爆炸和梯度离散的情况

torch.relu(a)

Softmax
用预测分类，每个值都在0～1之间，且和为1
$S\left(y_{i}\right)=\frac{e^{y_{i}}}{\sum_{j} e^{y_{j}}}$
求导：
$\frac{\partial p_{i}}{\partial a_{j}}=\left\{\begin{array}{ll} {p_{i}\left(1-p_{j}\right)} & {\text { if } i=j} \\ {-p_{j} \cdot p_{i}} & {\text { if } i \neq j} \end{array}\right.$
i=j是正的，其它时是负的

p=F.softmax(a,dim=0)
torch.autograd.grad(p[1],[a],retain_graph=True)

Loss及其梯度

MSE：均方误差
Cross Entropy Loss：交叉熵
loss求导：

torch.autograd.grad(loss,[w1,w2,…]

In [55]: x=torch.ones(1)                                                        
In [56]: w=torch.full([1],2)                                                    
In [57]: w.requires_grad_()                                                     
Out[57]: tensor([2.], requires_grad=True)                            
In [63]: mse=F.mse_loss(torch.ones(1),x*w)                                      
In [64]: torch.autograd.grad(mse,[w])                                           
Out[64]: (tensor([2.]),)

loss.backward()

mse=F.mse_loss(torch.ones(1),x*w) 
mse.backward()
w.grad

反向传播

在这里插入图片描述

酸菜余

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
随机梯度下降

激活函数原始激活函数：阈值函数（大于0为1，小于0为0）缺点不可导改进激活函数：sigmoid(0~1之间)f(x)=σ(x)=11+e−xf(x)=\sigma(x)=\frac{1}{1+e^{-x}}f(x)=σ(x)=1+e−x1优点是可导且易导：σ′=σ(1−σ)\sigma^{\prime}=\sigma(1-\sigma)σ′=σ(1−σ)缺点是会在两端会...
复制链接

扫一扫

专栏目录