Week3笔记:Supervised Machine Learning:Regression and Classification

四、逻辑回归 logistic regression–Classification

4.1 线性回归对于分类问题的局限性以及逻辑回归

在分类问题中,我们尝试预测的是结果是否属于某一类别,例如判断一封电子邮件是否是垃圾邮件、肿瘤是良性还是恶性的问题。以上都是二元的分类问题。

对于没有离群点的数据,线性模型也能完成分类任务,但如果我们观测到一些离群点,将其加入到我们的训练集中来,又会获得一条新的直线。这会使得我们的拟合效果不好。

用线性回归算法来解决一个分类问题的话,y取值为0/1,那么函数的输出值有可能远大于1,或者远小于0,但我们知道y应该取值0或者1,这样就很奇怪。所以我们使用逻辑回归算法来解决分类问题,这个算法的输出值永远在0到1之间,通过设置阈值来最终确定输出0还是1。

逻辑回归算法使用的Sigmoid公式,下图中的sigmoid函数g(z),无论z取多大或者多小, g(z)的值永远都在0和1之间。
在这里插入图片描述在这里插入图片描述

4.2 决策边界 decision boundary

在预测中,我们需要设定在什么情况下预测的概率为1还是0,这就是决策边界的问题。

我们需要设定一个阈值/门槛作为分界线,sigmoid函数中,当z为0的时候,取值正好是0.5,所以可以把z>=0和z<0作为判断的标准,z对应wx+b。
在这里插入图片描述案例1:

下列的分类问题中,如何划分y=0和y=1的情况,引入之前的g(z),z大于0和小于0的时候分别预测为0和1,所以此时要找到z=0的那条线,在这种情况下,有两个特征x1和x2,让w1和w2都为1,b为3,此时决策边界是下图的一条直线。当然如果选用不同的参数值,那么决策边界也可以是别的直线。

在这里插入图片描述案例2:

遇到下图的分类问题,需要用多项式特征(使用多项式也是线性回归的一种),此时决策边界是一个圆。
在这里插入图片描述
案例3:

可以根据情况选择不同的非线性边界,多项式可以拟合更复杂的情形。
在这里插入图片描述

4.3 逻辑回归的代价函数 cost function

4.3.1 loss function

在线性回归模型中,我们定义的loss function是所有模型误差的平方和,但当我们将Sigmoid函数代入到这个loss function时,我们得到的新的代价函数形式是一个非凸的函数(non-convex function),这对于我们的求解来说不是一个理想的形式。非凸函数会使得我们的代价函数产生许多局部最小值,梯度下降算法可能会陷入局部最小值从而找不到全局最小值。

在这里插入图片描述
上图蓝框的损失函数 loss function 是在一个训练样本的表现,把所有训练样本的损失加起来得到的代价函数 cost function,才能衡量模型在整个训练集上的表现。

4.3.2 逻辑函数的loss function

我们把逻辑回归的损失函数定义为两种对数函数。
下图是一个对数函数,预测y=1时的损失函数。函数形式是一个Sigmoid函数,观察下图。
当f输出是0.5的时候,图像的取值不是很大,但是当f是0.1的时候,图像的输出非常大,也就是损失函数的值很大,也就是说这个损失函数保证了当预测值是1的时候,损失是最小的。记住我们训练的目的是让损失函数最小,如果这个损失函数较大的话,模型就大概率不会把它预测为1。
在这里插入图片描述在下图假设在y预测为0的时候,如果此时说99.9%的可能性是恶性肿瘤,但是在这个代价函数中,x趋于0.99的惩罚代价是非常大的(very high loss)。
在这里插入图片描述

五、过拟合问题

5.1 过拟合问题

  • 过拟合:当变量过多时,训练出来的假设能很好地拟合训练集,所以代价函数实际上可能非常接近于0,但得到的曲线为了千方百计的拟合数据集,导致它无法泛化到新的样本中,无法预测新样本数据。
  • 泛化:指一个假设模型应用到新样本的能力

5.1.1 过拟合案例

第一个属于欠拟合,不能很好地适应训练集。
中间的模型很合适,具有良好的预测能力,称为泛化generalization
第三个模型属于过拟合,失去了预测新数据的能力,过于强调拟合原始数据。
在这里插入图片描述
在分类问题中也存在过拟合的问题:
在这里插入图片描述

5.1.2 解决方法

在这里插入图片描述

  1. 更多数据
  2. 特征选择,只选取重要特征
  3. 正则化,对参数进行缩放

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5.2 过拟合的代价函数(正则化Regularization)

我们可以从之前的事例中看出,正是那些高次项导致了过拟合的产生,所以如果我们能让这些高次项的系数接近于 0 的话,我们就能很好的拟合了。所以我们要做的就是在一定程度上减小这些参数w的值,这就是正则化的基本方法。
在一般的回归函数中,使参数的值更小一般会使得曲线更为平滑而减少过拟合情况的发生。在这里插入图片描述在下图中,第一项是平方误差项,+后的第二项为正则化项,λ 为正则化参数,作用是控制两个不同目标之间的取舍
(1)第一个目标与第一项均方误差有关,即我们想要更加拟合数据集。
(2)第二个目标与第二项 Regularization term 有关,即我们想要参数w尽量小些。
在这里插入图片描述

  1. 若 λ 设置为0,等于没有进行正则化,出现过拟合情况;

  2. 若 λ 设置的过大(上图中的10的10次方),即对w1 w2 w3 w4的惩罚程度过大,导致每一项都接近于0,最后假设模型只剩一个f(x) = b,出现欠拟合情况。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值