神经网络参数初始化方法 | 深度学习_神经网络模型的参数初始化-CSDN博客

本文链接：https://blog.csdn.net/weixin_48888528/article/details/130145451

为什么需要初始化神经网络参数？

神经网络参数的初始值会影响网络的拟合能力和优化效果，如果初始值过大或过小，可能会使得模型的梯度爆炸或梯度消失，导致网络无法收敛或训练效率低下。因此，合适的参数初始化可以提高模型的收敛速度和泛化能力。

神经网络参数的初始化是很重要的，不同的初始化方法可能导致模型性能的差异。随机初始化是最常用的初始方法之一，以下是一些随机初始化方法的示例和Python实现：

1. 均匀分布随机初始化

此方法将参数随机初始化为在指定区间内服从均匀分布的随机值，最常用的区间是[-r, r]，其中r是一个较小的正数。

Python实现：

import numpy as np

# 初始化大小为（n,m）的权重矩阵，值在[-r, r]之间随机分布
def uniform_init(n, m, r=0.1):
    return np.random.uniform(-r, r, (n, m))

2. 正态分布随机初始化

此方法将参数随机初始化为服从指定均值和标准差的正态分布的随机值。

Python实现：

# 初始化大小为（n,m）的权重矩阵，值在以mu为均值，sigma为标准差的正态分布下随机分布
def normal_init(n, m, mu=0, sigma=0.1):
    return np.random.normal(mu, sigma, (n, m))

3. Xavier初始化

Xavier初始化是一种针对于某些激活函数（如sigmoid）的特殊初始化方法，其目的是为了使得每一层输入的方差大致相等。

Python实现：

# Xavier初始化方法
def xavier_init(n, m):
    return np.random.normal(loc=0, scale=np.sqrt(1/(n+m)), size=(n, m))

4. He初始化

He初始化是一种针对于ReLU激活函数的特殊初始化方法，其目的也是为了使得每一层输入的方差大致相等。

Python实现：

# He初始化方法
def he_init(n, m):
    return np.random.normal(loc=0, scale=np.sqrt(2/n), size=(n, m))

需要注意的是，需要根据不同神经网络模型及任务选择不同的初始化方法。

最常用的随机初始化方法是将权重值随机分布在一个范围内，例如[-0.05,0.05]。下面是一个使用Python实现的具体例子：

import random
import numpy as np

def random_init(input_size, output_size):
    """
    input_size: 输入层节点数
    output_size: 输出层节点数
    """
    epsilon = 0.12   # 控制参数大小的常量
    W = np.zeros((output_size, input_size+1))    # 初始化权重矩阵
    for i in range(output_size):
        for j in range(input_size+1):
            W[i][j] = random.uniform(-epsilon, epsilon)
    return W

在上述代码中，我们使用numpy库创建一个所有元素均为0的矩阵，再使用random库中的uniform函数对其进行随机初始化，并控制参数范围大小的常量为0.12。

使用该函数进行随机初始化可以如下操作：

input_size = 10
output_size = 5
W = random_init(input_size, output_size)
print(W)

运行上述代码，我们可以得到类似如下的随机初始化矩阵：

array([[-0.02495211, -0.0007012 ,  0.10966169,  0.07131803,  0.0484302 ,
        -0.02036323, -0.011586  ,  0.02416831, -0.02064493, -0.03099039,
         0.03850217],
       [ 0.07439307,  0.04935092,  0.02583894, -0.02417219, -0.09880189,
        -0.10778684, -0.10198968, -0.06520752,  0.06740405, -0.01701554,
         0.03224939],
       [ 0.06631535, -0.02985056, -0.02027357, -0.11409398, -0.0215264 ,
        -0.02061788, -0.06854681, -0.07878375, -0.06611581,  0.02737992,
         0.04766446],
       [-0.11833036, -0.0853118 ,  0.00874644, -0.04011481, -0.05558958,
        -0.10986539, -0.06506781,  0.11635285, -0.1089822 ,  0.04405787,
         0.0207572 ],
       [ 0.06825568, -0.07798144, -0.10010684, -0.08485594, -0.10091781,
         0.02585377, -0.08614961,  0.04342185,  0.05697245, -0.03684133,
        -0.06409202]])