在tensorflow的入门教程中,有使用mnist数据集搭建了一层的简单网络,然后在在计算输出及loss的时候, 使用到了 softmax_cross_entropy_with_logits ,同时 tensorflow中还有sparse_ softmax_cross_entropy_with_logits,这两个的意义是基本相同的,那它们有什么区别呢?
如果看tensorflow源码,比较容易能看出来这两者的区别。
以基本的mnist分类场景有例,mnist有10类,训练时的batch size为batch_num
(1) 则若使用 softmax_cross_entropy_with_logits, 则其labels参数需要是一个[batch_size, 10]的矩阵,其中每行代表一个instance, 是one hot的形式,其非0 index代表属于哪一类。
(2)若使用sparse_softmax_cross_entropy_with_logits, 则其Labels参数是一个[batch_size]的列,里面每个属于0到9中间的整数,代表类别,所以函数名称加了sparse, 类似稀疏表示。