pytorch实现task3——过拟合、欠拟合及其解决方案；梯度消失、梯度爆炸；循环神经网络进阶

最新推荐文章于 2024-04-30 11:26:23 发布

xh6312643

最新推荐文章于 2024-04-30 11:26:23 发布

阅读量571

点赞数

分类专栏：技术之路

本文链接：https://blog.csdn.net/xh6312643/article/details/104355645

版权

过拟合、欠拟合及解决方案在之前自己已经使用较多较熟练，故跳过。

梯度消失、梯度爆炸

深度模型有关数值稳定性的典型问题是消失（vanishing）和爆炸（explosion）。

当神经网络的层数较多时，模型的数值稳定性容易变差。

在神经网络中，通常需要随机初始化模型参数。随机初始化模型参数的方法有很多。在线性回归的简洁实现中，我们使用torch.nn.init.normal_()使模型net的权重参数采用正态分布的随机初始化方式。不过，PyTorch中nn.Module的模块参数都采取了较为合理的初始化策略（不同类型的layer具体采样的哪一种初始化方法的可参考源代码），因此一般不用我们考虑。

几种偏移因素有：
协变量偏移——这里我们假设，虽然输入的分布可能随时间而改变，但是标记函数，即条件分布P（y∣x）不会改变。虽然这个问题容易理解，但在实践中也容易忽视。想想区分猫和狗的一个例子。我们的训练数据使用的是猫和狗的真实的照片，但是在测试时，我们被要求对猫和狗的卡通图片进行分类。
标签漂移——当我们认为导致偏移的是标签P（y）上的边缘分布的变化，但类条件分布是不变的P（x∣y）时，就会出现相反的问题。当我们认为y导致x时，标签偏移是一个合理的假设。例如，通常我们希望根据其表现来预测诊断结果。在这种情况下，我们认为诊断引起的表现，即疾病引起的症状。有时标签偏移和协变量移位假设可以同时成立。例如，当真正的标签函数是确定的和不变的，那么协变量偏移将始终保持，包括如果标签偏移也保持。有趣的是，当我们期望标签偏移和协变量偏移保持时，使用来自标签偏移假设的方法通常是有利的。这是因为这些方法倾向于操作看起来像标签的对象，这（在深度学习中）与处理看起来像输入的对象（在深度学习中）相比相对容易一些。
病因（要预测的诊断结果）导致症状（观察到的结果）。训练数据集，数据很少只包含流感p(y)的样本。
而测试数据集有流感p(y)和流感q(y)，其中不变的是流感症状p(x|y)。

训练模型的代码为：
loss = torch.nn.MSELoss()
def get_net(feature_num):
net = nn.Linear(feature_num, 1)
for param in net.parameters():
nn.init.normal_(param, mean=0, std=0.01)
return net
##对数均方根误差的实现
def log_rmse(net, features, labels):
with torch.no_grad():
# 将小于1的值设成1，使得取对数时数值更稳定
clipped_preds = torch.max(net(features), tor

最低0.47元/天解锁文章

xh6312643

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
pytorch实现task3——过拟合、欠拟合及其解决方案；梯度消失、梯度爆炸；循环神经网络进阶

过拟合、欠拟合及解决方案在之前自己已经使用较多较熟练，故跳过。梯度消失、梯度爆炸深度模型有关数值稳定性的典型问题是消失（vanishing）和爆炸（explosion）。当神经网络的层数较多时，模型的数值稳定性容易变差。在神经网络中，通常需要随机初始化模型参数。随机初始化模型参数的方法有很多。在线性回归的简洁实现中，我们使用torch.nn.init.normal_()使模型net...
复制链接

扫一扫