Week3笔记：Supervised Machine Learning：Regression and Classification

最新推荐文章于 2024-07-28 20:53:06 发布

-筷子夹豆腐

最新推荐文章于 2024-07-28 20:53:06 发布

阅读量69

点赞数

文章标签：笔记机器学习人工智能

本文链接：https://blog.csdn.net/weixin_46121667/article/details/133720985

版权

四、逻辑回归 logistic regression–Classification

4.1 线性回归对于分类问题的局限性以及逻辑回归

在分类问题中，我们尝试预测的是结果是否属于某一类别，例如判断一封电子邮件是否是垃圾邮件、肿瘤是良性还是恶性的问题。以上都是二元的分类问题。

对于没有离群点的数据，线性模型也能完成分类任务，但如果我们观测到一些离群点，将其加入到我们的训练集中来，又会获得一条新的直线。这会使得我们的拟合效果不好。

用线性回归算法来解决一个分类问题的话，y取值为0/1，那么函数的输出值有可能远大于1，或者远小于0，但我们知道y应该取值0或者1，这样就很奇怪。所以我们使用逻辑回归算法来解决分类问题，这个算法的输出值永远在0到1之间，通过设置阈值来最终确定输出0还是1。

逻辑回归算法使用的Sigmoid公式，下图中的sigmoid函数g(z)，无论z取多大或者多小， g(z)的值永远都在0和1之间。
在这里插入图片描述

4.2 决策边界 decision boundary

在预测中，我们需要设定在什么情况下预测的概率为1还是0，这就是决策边界的问题。

我们需要设定一个阈值/门槛作为分界线，sigmoid函数中，当z为0的时候，取值正好是0.5，所以可以把z>=0和z<0作为判断的标准，z对应wx+b。
在这里插入图片描述案例1：

下列的分类问题中，如何划分y=0和y=1的情况，引入之前的g(z)，z大于0和小于0的时候分别预测为0和1，所以此时要找到z=0的那条线，在这种情况下，有两个特征x1和x2，让w1和w2都为1，b为3，此时决策边界是下图的一条直线。当然如果选用不同的参数值，那么决策边界也可以是别的直线。

在这里插入图片描述案例2：

遇到下图的分类问题，需要用多项式特征（使用多项式也是线性回归的一种），此时决策边界是一个圆。
在这里插入图片描述
案例3：

可以根据情况选择不同的非线性边界，多项式可以拟合更复杂的情形。
在这里插入图片描述

4.3 逻辑回归的代价函数 cost function

4.3.1 loss function

在线性回归模型中，我们定义的loss function是所有模型误差的平方和，但当我们将Sigmoid函数代入到这个loss function时，我们得到的新的代价函数形式是一个非凸的函数(non-convex function)，这对于我们的求解来说不是一个理想的形式。非凸函数会使得我们的代价函数产生许多局部最小值，梯度下降算法可能会陷入局部最小值从而找不到全局最小值。

在这里插入图片描述
上图蓝框的损失函数 loss function 是在一个训练样本的表现，把所有训练样本的损失加起来得到的代价函数 cost function，才能衡量模型在整个训练集上的表现。

4.3.2 逻辑函数的loss function

我们把逻辑回归的损失函数定义为两种对数函数。
下图是一个对数函数，预测y=1时的损失函数。函数形式是一个Sigmoid函数，观察下图。
当f输出是0.5的时候，图像的取值不是很大，但是当f是0.1的时候，图像的输出非常大，也就是损失函数的值很大，也就是说这个损失函数保证了当预测值是1的时候，损失是最小的。记住我们训练的目的是让损失函数最小，如果这个损失函数较大的话，模型就大概率不会把它预测为1。
在这里插入图片描述在下图假设在y预测为0的时候，如果此时说99.9%的可能性是恶性肿瘤，但是在这个代价函数中，x趋于0.99的惩罚代价是非常大的（very high loss）。

五、过拟合问题

5.1 过拟合问题

过拟合：当变量过多时，训练出来的假设能很好地拟合训练集，所以代价函数实际上可能非常接近于0，但得到的曲线为了千方百计的拟合数据集，导致它无法泛化到新的样本中，无法预测新样本数据。
泛化：指一个假设模型应用到新样本的能力

5.1.1 过拟合案例

第一个属于欠拟合，不能很好地适应训练集。
中间的模型很合适，具有良好的预测能力，称为泛化generalization
第三个模型属于过拟合，失去了预测新数据的能力，过于强调拟合原始数据。
在这里插入图片描述
在分类问题中也存在过拟合的问题：

5.1.2 解决方法

在这里插入图片描述

更多数据
特征选择，只选取重要特征
正则化，对参数进行缩放

在这里插入图片描述

5.2 过拟合的代价函数（正则化Regularization)

我们可以从之前的事例中看出，正是那些高次项导致了过拟合的产生，所以如果我们能让这些高次项的系数接近于 0 的话，我们就能很好的拟合了。所以我们要做的就是在一定程度上减小这些参数w的值，这就是正则化的基本方法。
在一般的回归函数中，使参数的值更小一般会使得曲线更为平滑而减少过拟合情况的发生。在这里插入图片描述在下图中，第一项是平方误差项，+后的第二项为正则化项，λ 为正则化参数，作用是控制两个不同目标之间的取舍
（1）第一个目标与第一项均方误差有关，即我们想要更加拟合数据集。
（2）第二个目标与第二项 Regularization term 有关，即我们想要参数w尽量小些。
在这里插入图片描述

若 λ 设置为0，等于没有进行正则化，出现过拟合情况；
若 λ 设置的过大（上图中的10的10次方），即对w1 w2 w3 w4的惩罚程度过大，导致每一项都接近于0，最后假设模型只剩一个f(x) = b，出现欠拟合情况。

-筷子夹豆腐

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Week3笔记：Supervised Machine Learning：Regression and Classification

下图是一个对数函数，预测y=1时的损失函数。函数形式是一个Sigmoid函数，观察下图。当f输出是0.5的时候，图像的取值不是很大，但是当f是0.1的时候，图像的输出非常大，也就是损失函数的值很大，也就是说这个损失函数保证了当预测值是1的时候，损失是最小的。记住我们训练的目的是让损失函数最小，如果这个损失函数较大的话，模型就大概率不会把它预测为1。
复制链接

扫一扫