训练过程中出现NanLossDuringTrainingError: NaN loss during training

最新推荐文章于 2024-06-22 16:35:45 发布

yisun123456

最新推荐文章于 2024-06-22 16:35:45 发布

阅读量855

点赞数 19

文章标签：算法

本文链接：https://blog.csdn.net/yisun123456/article/details/139819258

版权

这种问题可能由多种原因引起，以下是一些常见的原因以及排查和解决方法。

常见排查方法

NaN/Inf检查：

x=tf.debugging.check_numerics(x, message=message)

打印权重和特征：

w = tf.compat.v1.Print(w, [w], message="layer{} weights: ".format(i), summarize= 2560)
w = tf.debugging.check_numerics(w, message='Weights contain NaN or Inf layer{}'.format(i))
b = tf.compat.v1.Print(b, [b], message="layer{} biases: ".format(i), summarize=2560)

x = tf.compat.v1.Print(x, [x], message="layer{} output: ".format(i), summarize=2560)

常见原因和解决方法

学习率太高：学习率过高可能导致梯度爆炸，从而使损失函数变成NaN。尝试减小学习率。

learning_rate = 0.001  # 例如，将学习率调小，0.0001 1e-5等
optimizer = tf.train.AdamOptimizer(learning_rate)
train_op = optimizer.minimize(loss)

梯度爆炸/消失：使用梯度裁剪来防止梯度爆炸。可以在计算梯度后对其进行裁剪。

optimizer = tf.train.AdamOptimizer(learning_rate)
gradients, variables = zip(*optimizer.compute_gradients(loss))
gradients, _ = tf.clip_by_global_norm(gradients, 5.0)  # 裁剪梯度
train_op = optimizer.apply_gradients(zip(gradients, variables))

数据batch_norm、layer_norm：确保输入数据没有异常值（如Inf或NaN）。在数据预处理阶段进行数据清洗。

#批归一化
batch_norm = tf.layers.batch_normalization(inputs, training=is_training)#需要传递是训练阶段还是推理阶段
update_ops = tf.compat.v1.get_collection(tf.compat.v1.GraphKeys.UPDATE_OPS)
with tf.control_dependencies(update_ops):
    train_op = ...


#层归一化
layer_norm = tf.contrib.layers.layer_norm(inputs)

初始化问题：确保模型参数初始化得当。比如，使用适当的初始化器。

initializer = tf.glorot_uniform_initializer()  # Xavier初始化 或者使用高斯标准化初始化
weights = tf.get_variable("weights", shape=[in_dim, out_dim], initializer=initializer)

数值稳定性：使用数值稳定性较好的激活函数和损失函数。例如，使用softmax的稳定版本

logits = tf.layers.dense(inputs, num_classes)
loss = tf.nn.softmax_cross_entropy_with_logits_v2(labels=labels, logits=logits)

正则化：使用正则化防止过拟合和数值不稳定。

l2_regularizer = tf.contrib.layers.l2_regularizer(scale=0.1)
regularization_penalty = tf.contrib.layers.apply_regularization(l2_regularizer, tf.trainable_variables())
loss = original_loss + regularization_penalty