tensorflow-gpu报错 self._traceback = tf_stack.extract_stack()
22年1月19日23点更
终于找到了最终原因!!
原因分析
最终原因,修改参数之后的向量维度与实现训练好的保存的checkpoint的向量维度不相符,结果就会报这个错。
因为电脑太垃圾,在下载了别人的模型之后运行太慢,就把隐藏层维度调小了,结果一直报标题所示的错误,一个多月后仔细阅读报错的一大堆内容才发现是因为维度不对。
解决办法
- 改回原来的参数设置,网络相关参数不要动,可以吧batch_size调小一些。
- 找到代码中保存checkpoint的路径,把checkpoint删除让模型重新训练,优点是可以随心所欲的改隐藏参数,缺点是一切要重头再来,不能利用别人训练好的参数。当然,如果这次的参数设置的还不满意,依然需要删除checkpoint才能再次修改参数。
教训
1.网络结构参数不要随便改。
2.报错信息要耐心看。
如果帮到你的话点个赞吧
原因一、显存满了
此时可以通过在cmd输入命令 nvidia-smi
查看GPU运行状态,
很有可能会因为输入的batch_size或者隐藏层层数太多,显存已经占满还未能将数据全部加载,此时gpu不会开始工作(类似于内存与cpu),使用率为0%
原因一的解决办法:
1.
调小bath_size和隐藏层层数,调小图片分辨率,关闭其他耗显存的软件,以及其他能减小显存占用的方法,再重试。若显存只有两个G,最好还是用cpu的跑吧。
2.
将1.配合代码使用
os.environ['CUDA_VISIBLE_DEVICES'] = '/gpu:0' #指定所用的gpu
# GPU 按需分配
config = tf.compat.v1.ConfigProto(allow_soft_placement=True)
config.gpu_options.per_process_gpu_memory_fraction = 0.7 #GPU显存用量百分比
tf.compat.v1.keras.backend.set_session(tf.compat.v1.Session(config=config))
原因二、存在重复的代码,调用程序重叠
这个是我在保存模型与加载模型时发现的,在保存和加载时都重复写了对变量的赋值与运算操作,在加载时就报错 self._traceback = tf_stack.extract_stack()
瞬间感觉tensorflow报错self._traceback = tf_stack.extract_stack()的情况有很多!!
报错时代码如下
import tensorflow as tf
a = tf.Variable(5., tf.float32)
b = tf.Variable(6., tf.float32)
num = 10
model_save_path = './model/'
model_name = 'model'
saver = tf.train.Saver()
#准备保存参数
with tf.Session() as sess:
init_op = tf.compat.v1.global_variables_initializer()
sess.run(init_op)
for step in np.arange(num):
c = sess.run(tf.add(a, b))
saver.save(sess, os.path.join(model_save_path, model_name), global_step=step)
print("参数保存成功!")
#准备加载参数
a = tf.Variable(5., tf.float32)
b = tf.Variable(6., tf.float32) # 注意这里重复了
num = 10
model_save_path = './model/'
model_name = 'model'
saver = tf.train.Saver() # 注意这里重复了
with tf.Session() as sess:
init_op = tf.compat.v1.global_variables_initializer()
sess.run(init_op)
ckpt = tf.train.get_checkpoint_state(model_save_path)
if ckpt and ckpt.model_checkpoint_path:
saver.restore(sess, ckpt.model_checkpoint_path)
print("load success")
运行代码便会报错: self._traceback = tf_stack.extract_stack()
原因二解决方法
当注释掉参数加载中的 saver = tf.train.Saver()
或者注释掉
a = tf.Variable(5., tf.float32)
b = tf.Variable(6., tf.float32) # 注意这里重复了
模型都不再报错。具体原因我也不清楚。
原因三:
和原因二比较像,当一次运行创建了2次及以上会话,也就是重复运行了with tf.Session() as sess:
也会报该错误,
解决办法:查看是否是将 with tf.Session() as sess:
写到了循环里,或者找重复创建会话的代码,改过来。
原因四: 2022/4/22
在 tensorflow 的一个Graph中,如果进行了train又进行了evalution,则他们的feed_dict中传入的向量的维度必须相等,也就是说eval的数据集必须padding到与train相同的维度。不然会报该错。
还有其他说明类型的欢迎补充
有用的话点个赞再走吧~