参数初始化之 xavier作用及pytorch代码实现

随便写写算了

于 2024-01-03 12:17:39 发布

阅读量1.2k

点赞数 21

文章标签： pytorch 神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_73333210/article/details/135360469

版权

本文详细介绍了神经网络中常用的权重初始化策略，包括零初始化、随机初始化以及Xavier初始化的原理、作用和公式，以PyTorch为例展示了如何在代码中实现。着重讨论了这些初始化方式对梯度传播的影响，如防止梯度消失和爆炸。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 零初始化

将所有的权重和偏置初始化为零。

2 随机初始化

parameters[f"W{l}"] = np.random.randn(layer_dims[l], layer_dims[l-1]) * 0.01 parameters[f"b{l}"] = np.zeros((layer_dims[l], 1))

3 xavier初始化

1 思路

根据每层输入和输出的神经元数量来调整权重的初始值，以确保信号在前向传播和反向传播过程中能够在不同层之间均匀传播

2 作用

意味着对于每个神经元，其输入和输出的方差应该相等，从而避免在网络的不同层之间引入过大或过小的方差，有助于缓解梯度消失或梯度爆炸问题

3 公式

eg：前一层是输入层，有100个神经元，后一层是隐藏层1本身，有80个神经元。根据公式，我们可以计算权重初始范围a：a = sqrt(6 / (100 + 80)) ≈ 0.136。现在，我们可以从均匀分布[-0.136, 0.136]中随机初始化隐藏层1的权重矩阵。

4 pytorch实现`torch.nn.init.xavier_uniform_`函数来初始化权重

import torch
import torch.nn as nn

# 定义一个5层的神经网络
class MyNetwork(nn.Module):
def __init__(self):
super(MyNetwork, self).__init__()
self.fc1 = nn.Linear(100, 80) # 隐藏层1
self.fc2 = nn.Linear(80, 60) # 隐藏层2
self.fc3 = nn.Linear(60, 40) # 隐藏层3
self.fc4 = nn.Linear(40, 10) # 输出层

# 使用Xavier初始化来初始化权重
nn.init.xavier_uniform_(self.fc1.weight)
nn.init.xavier_uniform_(self.fc2.weight)
nn.init.xavier_uniform_(self.fc3.weight)
nn.init.xavier_uniform_(self.fc4.weight)

def forward(self, x):
x = torch.relu(self.fc1(x))
x = torch.relu(self.fc2(x))
x = torch.relu(self.fc3(x))
x = self.fc4(x)
return x

# 创建网络实例
net = MyNetwork()

# 打印网络结构和权重
print(net)
print(net.fc1.weight)
print(net.fc2.weight)
print(net.fc3.weight)
print(net.fc4.weight)

5 运行结果：

随便写写算了

博客等级

码龄3年

15
原创

236
点赞

216
收藏

164
粉丝

关注

私信

热门文章

最新评论

雅思小作文最终版本-无替代版
CSDN-Ada助手: 恭喜您发布了第16篇博客“雅思小作文最终版本-无替代版”！持续创作是一件了不起的事情，您的努力和坚持可嘉。希望您能保持这种创作热情，继续分享您的心得体会和经验。或许在下一篇博客中，可以尝试探讨一些实用的写作技巧或者分享一些学习雅思的心得，让更多的读者受益。期待您的下一篇作品！继续加油！
雅思语法课1-简单句
CSDN-Ada助手: 恭喜你写了第11篇博客！看到你在分享雅思语法课1-简单句的内容，我感到非常欣慰。希望你能继续坚持创作，不断提升自己的写作水平。下一步，我建议你可以尝试写一些实例分析，或者结合实际情况给出一些写作技巧，这样可以让读者更加深入地理解和应用所学的知识。加油！
雅思阅读预习课1
CSDN-Ada助手: 恭喜您完成了第12篇博客！标题“雅思阅读预习课1”听起来非常有趣和有教育意义。您的持续创作精神令人钦佩！在您的博客中，我相信会有许多关于如何准备雅思阅读的有用信息。下一步，我希望看到您能够分享一些关于如何应对阅读中的各种题型和技巧的内容。当然，这只是一个建议，我非常期待您未来的创作！
多层感知机MLP是什么？
CSDN-Ada助手: 非常感谢您的第四篇博客《多层感知机MLP是什么？》！我很高兴看到您持续创作，并且选择了一个如此有趣的主题进行探讨。您对MLP的解释非常清晰，让我对它的工作原理有了更深入的了解。接下来的创作建议，我谦虚地建议您可以考虑深入探讨MLP在实际应用中的一些案例研究，以及与其他神经网络模型的比较。这样的比较将为读者提供更多的参考，并帮助他们更好地理解MLP在机器学习领域的地位和优势。再次恭喜您的持续努力和创作，期待您未来更多精彩的博客！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。