tensorflow在训练的时候权重是nan,如何解决


昨天在实验室和师妹一起搭建最普通的卷积CNN网络,在其中遇到了一些问题。聪明的师妹解决了这个问题。因为这个问题是大家在学习tensorflow的时候容易忽略掉的,因此将这个问题分享给大家,共勉!


nan表示的是无穷或者是非数值,比如说你在tensorflow中使用一个数除以0,那么得到的结果就是nan。

在一个matrix中,如果其中的值都为nan很有可能是因为采用的cost function不合理导致的。


当使用tensorflow构建一个最简单的神经网络的时候,按照tensorflow官方给出的教程:

https://www.tensorflow.org/get_started/mnist/beginners

http://wiki.jikexueyuan.com/project/tensorflow-zh/tutorials/mnist_beginners.html  (中文教程)


具体的含义就不解释了。大概分为三个部分:1,导入数据集;2,搭建模型,并且定义cost function(也叫loss function);3,训练。

对于过程1,我们采用的不是mnist数据集,而是自己定义了一个数据集,其中

对于过程2,我们使用最简单的CNN网络,然后定义cost function的方式是:

cross_entropy = -tf.reduce_sum(y_*tf.log(y))

对于过程3,我们也采用教程中的例子去训练。


但是在初始化W后就立刻查看W参数的结果,得到的结果都是nan,以下是输出W权重后的结果:


这个现象是由于cost function引起的:

cross_entropy = -tf.reduce_sum(y_*tf.log(y))

上面的语句中的y_是数据集的label。我们做的是显著性检测,就是数据集的ground truth。

并且这个label或者ground truth一定要是one hot类型的变量。

那什么是one hot类型的变量呢?

举一个例子:比如一个5个类的数据集,用0,1,2,3,4来表示5个类的标签,因此label=0,1,2,3,4。这时候有的人会把y_=0,1,2,3,4。直接输入到cost function——-tf.reduce_sum(y_*tf.log(y))中,那么这样会导致W参数初始化都是nan。

解决办法就是我们把label=0,1,2,3,4变为one hot变量,改变后的结果是:label=[1,0,0,0,0],[0,1,0,0,0],[0,0,1,0,0],[0,0,0,1,0],[0,0,0,0,1],这样再输入到tf.reduce_sum(y_*tf.log(y))中,就是正确的了,如下图,我们采用的解决办法是第二种,具体参考下文。



那么本文提供两种方法来解决这个问题:

1,将y_从原来的类别数字变为one hot变量,使用

labels = tf.reshape(labels, [batch_size, 1])
indices = tf.reshape(tf.range(0, batch_size, 1), [batch_size, 1])
labels = tf.sparse_to_dense(
    tf.concat(values=[indices, labels], axis=1),
    [batch_size, num_classes], 1.0, 0.0)
将label转为one hot(batch_size是你每次抓取的训练集的个数)
2,换一个cost function,原来的cost function = -tf.reduce_sum(y_*tf.log(y))
使用的是交叉熵函数,现在我们换成二次代价函数 cost function = tf.reduce_sum(tf.square(tf.substract(y_,y)))

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值