PyTorch实践(三)

梯度

凸函数可以找到全局最优解
影响搜索全局最优解的因素:

  • 初始状态(权值需要初始化)
  • 动量(摆脱局部最小值)
  • 学习率(影响收敛速度与精度)

激活函数及其梯度

f ( x ) = σ ( x ) = 1 1 + e − x f(x)=\sigma(x)=\frac{1}{1+e^{-x}} f(x)=σ(x)=1+ex1
在这里插入图片描述
有点:连续光滑,压缩在0~1,且计算方便
缺点:梯度消失
f ( x ) = tanh ⁡ ( x ) = ( e x − e − x ) ( e x + e − x ) = 2 sigmoid ⁡ ( 2 x ) − 1 \begin{aligned} f(x)=& \tanh (x)=\frac{\left(e^{x}-e^{-x}\right)}{\left(e^{x}+e^{-x}\right)} \\ &=2 \operatorname{sigmoid}(2 x)-1 \end{aligned} f(x)=tanh(x)=(ex+ex)(exex)=2sigmoid(2x)1
在这里插入图片描述

f ( x ) = { 0  for  x < 0 x  for  x ≥ 0 f(x)=\left\{\begin{array}{ll} 0 & \text { for } x<0 \\ x & \text { for } x \geq 0 \end{array}\right. f(x)={0x for x<0 for x0
f ′ ( x ) = { 0  for  x < 0 1  for  x ≥ 0 f^{\prime}(x)=\left\{\begin{array}{ll} 0 & \text { for } x<0 \\ 1 & \text { for } x \geq 0 \end{array}\right. f(x)={01 for x<0 for x0
减小梯度消失何梯度爆炸

loss function的梯度

MSE(均方差函数)

使用方法:

  • torch.autograd.grad(loss,[w1,w2,w3,…])
    • [w1 grad,w2 grad…]
  • loss.backward()
    • w1.grad
    • w2.grad

实例:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

softmax函数

在这里插入图片描述
∂ p i ∂ a j = { p i ( 1 − p j )  if  i = j − p j ⋅ p i  if  i ≠ j \frac{\partial p_{i}}{\partial a_{j}}=\left\{\begin{array}{lll} p_{i}\left(1-p_{j}\right) & \text { if } & i=j \\ -p_{j} \cdot p_{i} & \text { if } & i \neq j \end{array}\right. ajpi={pi(1pj)pjpi if  if i=ji=j
实例:
在这里插入图片描述

链式梯度推导(链式法则)

实例:
在这里插入图片描述
在这里插入图片描述

2D函数优化实例

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值