似然值
首先要先理解似然值,似然值指的是比如你知道一个事件的概率,并已知抛了10次硬币,反推产生这个概率模型,而这个模型参数就是似然值,最大似然估计目的是为了求出最大的似然值,就是产生这个概率的最大可能的概率模型
损失函数
神经网络最后推导的结果如果按照概率的方式,就是期望值和结果的概率差异,每一个神经元的结果只有0和1的方式,那么就符合伯努利分布,如下图
这里 Xi 是输入,Yi 是参数( 注意这个Xi 只能是 0 或者 1),这里加个log,并不改变函数的单调性,把累乘改成累加,展开后,得到 似然函数,因为我们用的是最大似然估计法,这里需要求这个函数的最大值
而因为损失函数要梯度下降,所以我们这里习惯上要求最小值,所以加一个负号
为了找到最大值,可以对对数似然函数 lnL§ 求导数,并令导数等于零,然后解方程找到
p 的值。这个值就是最大似然估计。