权重归一化weight_norm

小周ipython

已于 2022-11-24 15:05:04 修改

阅读量2.9k

点赞数 1

分类专栏：论文复现中的知识补充

于 2022-11-24 14:59:42 首次发布

本文链接：https://blog.csdn.net/weixin_45718987/article/details/128018234

版权

深度学习人工智能

论文复现中的知识补充专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1. 权重归一化原理

对于网络中一神经元，其输入为 x，输出为 y，计算过程为
$y=\phi(\omega *x+b)$
$\omega$ 为与该神经元连接的权重，通过损失函数与梯度下降对网络进行优化的过程就是求解最优 $\omega$ 的过程。将 $\omega$ 的长度与方向解耦，可以将 $\omega$ 表示为
$\omega = g\frac{v}{||v||},$
其中 $g$ 为标量，其大小等于 $\omega$ 的模长， $\frac{v}{||v||}$ 为与 $\omega$ 同方向的单位向量，此时，原先训练过程中 $\omega$ 的学习转化为 $g$ 和 $v$ 的学习。假设损失函数以 $L$ 表示，则 $L$ 对 $g$ 和 $v$ 的梯度可以分别表示为，
$\nabla_gL=\nabla_g \omega * (\nabla_\omega L)^T = \frac{\nabla_\omega L*v^T}{||v||}$
$\nabla_vL = \nabla_v\omega*\nabla_\omega L=\frac{\partial \frac{g*v}{||v||}}{\partial v}*\nabla_\omega L=\frac{g*||v||}{||v||^2}*\nabla_\omega L-\frac{g*v*\frac{\partial||v||}{\partial v}}{||v||^2}*\nabla_\omega L$
因为
$\frac{\partial||v||}{\partial v}=\frac{\partial (v^T*v)^{0.5}}{\partial v}=0.5*(v^T*v)^{-0.5}*\frac{\partial (v^T*v)}{\partial v}=\frac{v}{||v||},$
所以
$\nabla_gL = \frac{g}{||v||}*\nabla_\omega L-\frac{g*\nabla_g L}{||v||^2}*v=\frac{g}{||v||}*M_\omega*\nabla_\omega L,$
其中 $M_\omega=I-\frac{\omega*\omega^T}{||\omega||^2}$ ，与向量点乘可以投影任意向量至 $\omega$ 的补空间，相对于原先的 $\nabla_\omega L$ ， $\nabla_v L$ 进行了 $\frac{g}{||v||}$ 的缩放以及 $M_\omega$ 的投影，两者对优化过程都起到作用。

2. Pytorch中weight normalization的使用

import torch
import torch.nn as nn

net = nn.Linear(200,10)
net.weight.data

nn.utils.weight_norm(net, name='weight')

net.weight_g.size(),net.weight_v.size()