逻辑回归(Logistic Regression, LR),逻辑回归虽然带有‘回归’二字,但是逻辑回归却属于分类算法。逻辑回归可以进行多分类操作,但由逻辑回归算法本身性质决定其更常用于二分类。
关于逻辑回归,可以用一句话来总结:逻辑回归假设数据服从伯努利分布,通过极大似然函数的方法,运用梯度下降或牛顿法来求解参数,来达到将数据二分类的目的。(后续的博文会陆续介绍里面所蕴含的玄机)
首先我们了解一个函数:sigmoid,逻辑回归就是基于这个函数构建的模型。sigmod函数公式如下:
对应的函数图像如下:
这个函数有如下特点:
在中间范围内的函数斜率最大;
无论X取何值,Y轴都在0,到之间;
当X为0时对应得Y取0.5。
基于该函数具有以上特点,我们来看一下LR算法的思想:
考虑二分类任务,其输出标记y∈{0,1}(分为正例和反例),线性回归模型产生的预测值,X可以分为大于0,小于0,和等于零。我们对应上面的Sigmoid函数,当X>0时我们判断为正例,X<0判断为反例。----------周志华《机器学习 》(这里的X对应了书中的z)
选择Sigmoid函数是因为:单位阶跃函数不连续,因此不可导,这样会对后续的优化造成困难。而Sigmoid函数的图像与单位阶跃函数在一定程度上接近。因此用此函数代替。
具体过程:
由于函数的的值域为(0,1),我们可以把它与“概率‘’联系起来(在后续的博文中会详细讲解)。对于一个样本,通过得到X,带入Sigmoid函数,当Sigmoid函数值大于0.5,即当概率大于0.5时,可以理解为正例的概率大于0.5时,判断为正例,反之为反例。