Softmax
定义
f(xi)=exi∑jexj f ( x i ) = e x i ∑ j e x j
求导
Softmaxloss
定义
L(xi)=−∑kyklogfk(xi)
L
(
x
i
)
=
−
∑
k
y
k
l
o
g
f
k
(
x
i
)
其中
y=(y0,y1,...,yn)
y
=
(
y
0
,
y
1
,
.
.
.
,
y
n
)
,
yi∈{0,1}
y
i
∈
{
0
,
1
}
是
xi
x
i
类别描述, 比如常见的one hot encoding中,对一个样本
xi
x
i
,
y
y
只有一个元素值为1,其他都是0,所以假设标签中只有
yi=1
y
i
=
1
,则求和号可以去掉有
求导1
直接利用展开式
L(xi)=−xi+log∑jexj
L
(
x
i
)
=
−
x
i
+
l
o
g
∑
j
e
x
j
求导2
从原始公式
L(xi)=−logfi(xi)
L
(
x
i
)
=
−
l
o
g
f
i
(
x
i
)
PS: fi() f i ( ) 的下标似乎应该去掉???
重点
链式法则是和复合函数求导关联,
f(g(x))
f
(
g
(
x
)
)
是复合函数,
f(x)g(x)
f
(
x
)
g
(
x
)
不是符合函数