分类问题的损失函数
交叉熵损失(Cross Entropy Loss):假设误差是二值分布,可以视为预测概率分布和真实概率分布的相似程度。在分类问题中有良好的应用
CE(θ)=−∑i=1nyi∗log(y^i)
其中 yi 表示真实概率分布,只有 yk=1 ,而 yj=0 , j≠k 。 y^i 表示预测概率分布,设它的输入为 θi ,则 y^i=softmax(θi)=exp(θi)∑jexp(θj)均方损失(Mean Square Loss):假设误差是正态分布,适用于线性的输出,特点是对于与真实结果差别越大,则惩罚力度越大,这并不适用于分类问题。
MS(θ)=1n∑i=1n(yi−y^i)2
其中 y^i=W⋅θi 表示 θi 的线性输出。
交叉熵的求导过程
由于只有
yk=1
,而
yj=0
,
j≠k
,则有
CE(θ)====−∑i=1nyi∗log(y^i)−log(y^k)−log(exp(θk)∑jexp(θj))−θk+log(∑jexp(θj))
故
∂CE(θ)∂θ=−∂θk∂θ+∂∂θlog(∑jexp(θj))
而根据 ∂θk∂θk=1 , ∂θk∂θq=0 , q≠k ,得到
∂θk∂θ∂∂θilog(∑jexp(θj))==⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢0⋮1⋮0⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥exp(θi)∑jexp(θj)==yy^i
最终得到
∂CE∂θ=∂∂θlog(∑jexp(θj))−∂θk∂θ=y^−y