机器学习||林轩田机器学习基石（第十节）个人学习笔记

最新推荐文章于 2022-09-08 14:06:48 发布

我会暂时把它们保存起来

最新推荐文章于 2022-09-08 14:06:48 发布

阅读量192

点赞数

分类专栏：学习笔记文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_45689139/article/details/109001535

版权

这篇博客详细探讨了逻辑回归在机器学习中的应用，从分类问题的背景介绍到逻辑回归模型的构建，包括逻辑回归的误差分析和梯度下降法。文章强调了逻辑回归的输出是有限类别，而非连续值，并通过心脏病预测问题阐述了软二分类问题。还讨论了交叉熵误差作为逻辑回归的损失函数，并介绍了误差的梯度求解以及逐步修正的朴素贝叶斯算法（PLA）。

摘要由CSDN通过智能技术生成

机器学习个人学习笔记 2020-10-10

概述

逻辑回归并不是回归问题，而是分类问题。分类算法是典型的监督式学习，所用到的训练样本包含着样本的特征和标签信息。
在线性回归中，输出通常是连续的。它的定义域和值域可以是[+∞，-∞]。
而在逻辑回归中，它的输入可以是[+∞，-∞]，可是它的输出是只有有限多个类别的。
举个例子：譬如输出只有{0,1}，这可以表示输入的数据x被分为两类，比如硬币的正/反面，血常规的正常/超标等等。而上述所提到的就是典型的二元逻辑回归问题。
总的来说：逻辑回归就是将输入数据x通过逻辑回归模型，将其映射到有限的输出y上，而每个y都代表着实际的类别，从而达到将x分类的目的。

本节课将分为四个小节来学习，分别是：逻辑回归问题、逻辑回归误差、逻辑回归梯度，梯度下降法。

1.逻辑回归问题

在这里插入图片描述
首先对于心脏病预测问题来说，我们拿到的数据集D是有噪声的版本，它的目标函数可以用目标分布P(y|x)来表示。如果要判断一个人是否心脏病复发，我们把P(+1|x)放入sign函数里让它与0.5来判断，如果值大于0.5则被预测为+1，即表示复发，否则没复发；这是一个典型的二分类问题。但是现在我们要告诉来看病的人“心脏病复发的概率”，这显然要求输出的P(y|x)是一个在[0,1]之间的具体数目，我们把这类问题叫做‘soft’ binary classification（软二分问题）。

在这里插入图片描述
我们想要拿到的理想的资料如绿色图中所示，要得到的其实是P(+1|x)的具体大小是多少，但是还是拿心脏病的例子来讲，我们通常拿到的数据只是知道患者心脏病复发还是没复发而已。我们可以把实际的资料看成是立项资料的有噪声版本。由于没有具体的值，所以我们在原有数据集上进行了抽样，但是我们发现绿色框框中0.6的值竟然被抽样得到了0,。所以我们现在的问题就是：如何使用这些实际的训练数据来解决软二分类的问题呢？我们的假设函数如何设置？