WDSR——论文代码笔记

 

论文链接

代码链接

 

WN的理解

1、计算梯度 grads
2、获得lr,如果需要衰减就对应衰减
3、迭代次数更新 t=iterations+1

4、计算本次迭代的lr,lr_t = lr*sqrt(1-pow(beta_2,t))/(1-pow(beta_1,t))

初始状态
params:初始值
grads:根据p和loss计算得到
ms:初始为0,不断更新
vs:初始为0,不断更新

根据parms、grads计算g和V
    因为 W = (g/||V||)*V,其中V_scaler = g/||V||,则W = V_scaler*V
    V_scaler = g/||V||,初始化为1,也是不断更新的
    W已知,V_scaler也已知,可得到 V = W/V_scaler
    根据V计算||V||
    再根据V_scaler和||V||,得到g=V_scaler*||V||
    计算g和V的梯度,根据论文里边的公式,用到grads

用Adam方法更新g和V
    用新的g和V更新W
    用V计算||V||
    V_scaler = g/||V||得到更新
    W = V_scaler*V

 

更新g、v、p

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值