2.18 Logistic 损失函数的解释-深度学习-Stanford吴恩达教授

本文链接：https://blog.csdn.net/ygl_9913/article/details/128984637

Logistic 损失函数的解释 ( Explanation of Logistic Regression Cost Function (Optional))

在前面的视频中，我们已经分析了逻辑回归的损失函数表达式，在这节选修视频中，我将给出一个简洁的证明来说明逻辑回归的损失函数为什么是这种形式。

回想一下，在逻辑回归中，预测的结果 $\hat{y} = \sigma (w^{T}x + b)$ ， $\sigma$ 是我们熟悉的 $S$ 型函数， $\sigma (z) = \sigma (w^{T}x +b) = \frac{1}{1+e^{-z}}$ 。

我们约定 $\hat{y} = p(y=1|x)$ ，即当给定输入特征x的时候y = 1 的概率。换句话说，如果y = 1，在给定训练样本x的条件下， $p(y|x) = \hat{y}$ ；如果y = 0， $p(y|x) = 1-\hat{y}$ 。前者表示y = 1 的概率，后者表示y = 0 的概率。接下来，我们就来分析这两个条件概率公式。

在这里插入图片描述

这两个条件概率公式定义形式为 $p(y|x)$ ，并且代表了 $y = 0$ 和 $y = 1$ 这两种情况，我们可以将这两个公式合并成一个公式。需要指出的是我们讨论的是二分类问题的损失函数，因此， $y$ 的取值只能是0或者1。上述的两个条件概率公式可以合并成如下公式：

$p(y|x) = \hat{y}^{y}(1-\hat{y})^{1-y}$

由于 $log$ 函数是严格单调递增的函数，最大化 $log(p(y|x))$ 会得出和最大化 $p(y|x)$ 相似的结果，如果计算 $log(p(y|x)) = log \hat{y}^{y}(1-\hat{y})^{1-y} = ylog\hat{y} + (1-y)log(l-\hat{y})$ ，这其实就是我们之前找到的损失函数的相反数。这里有一个负号，因为通常在训练一个学习算法的时候，我们想要让概率变大，而在逻辑回归中，我们想要最小化 $L(\hat{y},y)$ 这个损失函数。因此最小化损失函数相当于最大化概率的对数。这就是损失函数在单一样本上的例子。