Logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,虽然名字中有“回归”二字,但实际却是一种分类学习方法。对于回归这个概念,简单的说,回归就是用一条线对N个数据点进行一个拟合,这个拟合的过程就叫做回归。Logistic回归分类算法就是对数据集建立回归公式,以此进行分类。而至于如何寻找最佳回归系数,或者说是分类器的训练,就需要使用到最优化算法了。
Logistic回归函数的公式如下:
图像如下:
考虑二分类问题,y的值属于(0,1),而线性模型产生的预测值 z = ‘x+b是实值,于是我们需要将实值z转换程0/1值。其最理想的是“单位阶跃函数”,当z<0时,y=0;当z=0时,y=0.5;当z>0时,y=1。即若预测值y大于0就判为正例,小于0就判为反例,等于0可以任意判别。
logsitc回归方法主要是用最大似然估计来学习的,所以单个样本的后验概率为:
到整个样本的后验概率:
其中:
通过对数进一步化简为:
Logistic回归优点:
1、实现简单;
2、分类时计算量非常小,速度很快,存储资源低;
缺点:
1、容易欠拟合,一般准确度不太高
2、只能处理两分类问题(在此基础上衍生出来的softmax可以用于多分类),但必须线性可分。