逻辑回归代价函数为什么不用平方项损失函数

本文探讨了线性回归和逻辑回归的区别,重点在于逻辑回归的代价函数选择和sigmoid函数的应用。通过对比欧氏距离损失与对数似然损失,解释了为何采用对数似然来处理非凸问题,以及如何通过梯度下降找到最优的决策边界。
摘要由CSDN通过智能技术生成

         

上图样本特征值x只有1个

例如线性回归中目的为求出样本中的拟合直线,hθ(x) = θ^T *x = θ^0 + θ^1*x,使其拟合函数可以用于预测。 

对于线性回归中损失函数,

是不是简单明了,就是拟合函数和实际样本的欧几里得距离,平方项作用:1.方便求导;2.使其经验风险绝对化。然后求其梯度,找出代价函数下降最大方向,迭代足够多的次数,加以合适的步长(学习率)α,更新其θ

最后便可得到代价函数最优解θ0,θ1,即为经验风险最小化。便可得到拟合直线

而对于逻辑回归中

 我们希望得到上图中决策边界,利用样本中特征值xn(样本中特征值个数)加以权重,得到预测函数h(θ)。

值得注意的是逻辑回归中输出值因变量y服从伯努利分布,即0或1,而不是线性回归中近似的连续值,所有伟大的数学家,利用sigmod函数,又称压缩函数,将特征值加权后的函数

 使其值压缩到0到1的范围内,

                 

                  预测函数                                                      sigmod函数  

 

 其中z=θ^T x,

可得图形,

便可得与线性回归中不一样的预测函数:

                                 

 

(x)≥0.5,θ^TX≥0,y=1,同理(x)≤0.5,θ^T X≤0,y=0

构建代价函数,代价函数也是机器学习中建立模型的核心所在,当我们引入sigmod函数后,上述(x)将变得不易求导,如果依然利用线性回归中代价函数,

 

 我们将得到一个non-convex(非凸)函数

 将这个函数进行梯度下降,我们很有可能只能得到一个局部最小值,很难收敛到全局最小值,这样所求的预测函数误差将会非常大,况且(x)求几次导数将会变得非常复杂,不适合求解实际问题。

        解决办法:引入对数,将(x)对数化,并重新改写代价函数

                              

              

 可得函数图像:

               

 

      根据上图可得出当预测值和实际值同为1或同为0时,误差为0,当预测为0,而实际值y=1时,误差将会是无穷大,即所谓的惩罚项。

      最后可得逻辑回归中代价函数:

 ​​​​

同理梯度下降和θ迭代更新就和线性回归中差不多了。

便可得决策边界

        

 

 

                                                                                                                         待续。。。。。。。

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值