机器学习个人学习笔记 2020-10-10
概述
逻辑回归并不是回归问题,而是分类问题。分类算法是典型的监督式学习,所用到的训练样本包含着样本的特征和标签信息。
在线性回归中,输出通常是连续的。它的定义域和值域可以是[+∞,-∞]。
而在逻辑回归中,它的输入可以是[+∞,-∞],可是它的输出是只有有限多个类别的。
举个例子:譬如输出只有{0,1},这可以表示输入的数据x被分为两类,比如硬币的 正/反 面,血常规的 正常/超标 等等。而上述所提到的就是典型的二元逻辑回归问题。
总的来说:逻辑回归就是将输入数据x通过逻辑回归模型,将其映射到有限的输出y上,而每个y都代表着实际的类别,从而达到将x分类的目的。
本节课将分为四个小节来学习,分别是:逻辑回归问题、逻辑回归误差、逻辑回归梯度,梯度下降法。
1.逻辑回归问题
首先对于心脏病预测问题来说,我们拿到的数据集D是有噪声的版本,它的目标函数可以用目标分布P(y|x)来表示。如果要判断一个人是否心脏病复发,我们把P(+1|x)放入sign函数里让它与0.5来判断,如果值大于0.5则被预测为+1,即表示复发,否则没复发;这是一个典型的二分类问题。但是现在我们要告诉来看病的人“心脏病复发的概率”,这显然要求输出的P(y|x)是一个在[0,1]之间的具体数目,我们把这类问题叫做‘soft’ binary classification(软二分问题)。
我们想要拿到的理想的资料如绿色图中所示,要得到的其实是P(+1|x)的具体大小是多少,但是还是拿心脏病的例子来讲,我们通常拿到的数据只是知道患者心脏病复发还是没复发而已。我们可以把实际的资料看成是立项资料的有噪声版本。由于没有具体的值,所以我们在原有数据集上进行了抽样,但是我们发现绿色框框中0.6的值竟然被抽样得到了0,。所以我们现在的问题就是:如何使用这些实际的训练数据来解决软二分类的问题呢?我们的假设函数如何设置?
在之前的线性问题中&