1)Introduction
It turns out that the SVM is one of two commonly seen classifiers. The other popular choice is the Softmax classifier, which has a different loss function. Softmax 分类器是常用的分类器之一。
cross_entropy
y(即label) 表示成如下形式, 为1的 index为其对应的label.
则y可理解为想要达到的效果,而softmax_output 则表示预测的概率。 然后对其做求cross_entropy, 即为其目标函数(损失函数)。 但因yi 中只有正确index才会为1. 所以才会得到example中表示的那样的损失函数。
。
详细表示如下:
损失函数是cross_entropy 函数,有关cross_entropy可见以下链接
https://zhuanlan.zhihu.com/p/149409908
Example:
Li为损失函数, 损失函数评价当前 网络结构的好坏。直观地讲,当评分函数输出结果与真实结果之间差异越大,损失函数输出越大,反之越小。 我们训练网路 就是通过梯度下降法 降低 损失函数输出的值。
由于数据处理后 在 0-1 之间。又因 log 函数(lnx 函数) 如下图所示
如果 上图中 cat 标签得分为0, 则Loss function 输出结果为无穷大, 若得分为1, 则输出结果为0.
故 cross-entory loss 是一个较好的 损失函数。
2) numeric stability
''利用恒等变形, 解决可能回出现的数据过大问题’'
3) 公式推导
Li 对 W 求导时,实际上是对 每一列Wj 求导。 在求导中, 要分清对谁求导。
为了更清楚, Li 先对 W.dot(X) 得到的score(即sj求导)
i 表示 X 的 第i 个输入, yi 表示