2.18 Logistic 损失函数的解释-深度学习-Stanford吴恩达教授

Logistic 损失函数的解释 ( Explanation of Logistic Regression Cost Function (Optional))

在前面的视频中,我们已经分析了逻辑回归的损失函数表达式,在这节选修视频中,我将给出一个简洁的证明来说明逻辑回归的损失函数为什么是这种形式。

 回想一下,在逻辑回归中,预测的结果\hat{y} = \sigma (w^{T}x + b) ,\sigma 是我们熟悉的S型函数,\sigma (z) = \sigma (w^{T}x +b) = \frac{1}{1+e^{-z}} 。

我们约定\hat{y} = p(y=1|x),即当给定输入特征x的时候y = 1 的概率。换句话说,如果y = 1,在给定训练样本x的条件下,p(y|x) = \hat{y} ;如果y = 0,p(y|x) = 1-\hat{y}。前者表示y = 1 的概率,后者表示y = 0 的概率。接下来,我们就来分析这两个条件概率公式。

在这里插入图片描述

 这两个条件概率公式定义形式为 p(y|x),并且代表了y = 0 和 y = 1这两种情况,我们可以将这两个公式合并成一个公式。需要指出的是我们讨论的是二分类问题的损失函数,因此,y的取值只能是0或者1。上述的两个条件概率公式可以合并成如下公式:

p(y|x) = \hat{y}^{y}(1-\hat{y})^{1-y}

 由于log函数是严格单调递增的函数,最大化log(p(y|x)) 会得出和最大化p(y|x) 相似的结果,如果计算log(p(y|x)) = log \hat{y}^{y}(1-\hat{y})^{1-y} = ylog\hat{y} + (1-y)log(l-\hat{y}),这其实就是我们之前找到的损失函数的相反数。这里有一个负号,因为通常在训练一个学习算法的时候,我们想要让概率变大,而在逻辑回归中,我们想要最小化L(\hat{y},y) 这个损失函数。因此最小化损失函数相当于最大化概率的对数。这就是损失函数在单一样本上的例子。

在这里插入图片描述

 

那代价函数呢?在所有样本m的训练集里是怎么样呢?

让我们一起来探讨一下,整个训练集中标签的概率,更正式地来写一下。假设所有的训练样本服从同一分布且相互独立,也即独立同分布的,所有这些样本的联合概率就是每个样本概率的乘积:

 

 在这里插入图片描述

如果你想做最大似然估计,需要寻找一组参数,使得给定样本的观测值概率最大,但令这个概率最大化等价于令其对数最大化,在等式两边取对数: 

 

未完

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值