Logistic regression (逻辑回归)是一种非线性回归模型,通俗的讲就是在线性函数的外面嵌套一个非线性函数。其特征数据可以是连续的,也可以是分类变量和哑变量。常应用于:
- 分类问题(二分类):如,反垃圾系统判别,通过计算被标注为垃圾邮件的概率和非垃圾邮件的概率判定,其中softmax regression应用于多分类,是其推广;
- 排序问题:如,推荐系统中的排序,根据转换预估值进行排序;
- 预测问题:如,广告系统中CTR预估,根据CTR预估值预测广告收益。
目标函数构造:
首先说明一下sigmoid函数:
其中:
,为数据属性,为需要学习的参数。其分类标签为0,1分类。
随机梯度下降求取参数:
首先介绍最优化里面的随机梯度下降,这里仅展示图如下:
下面分别从公式角度和矩阵角度推导如何求解参数迭代公式:
公式角度:利用目标函数,对参数求偏导,如下:
从而参数迭代公式为:
矩阵角度:其中数据和参数向量化表示如下:
则
由于
所以最后得到:
向量化,有:
逻辑回归优点:
1) 实现简单,对因变量的分布没有要求;
2) 对构建的模型有较强的解释性;
3) 可以适用于连续性(特征离散化处理)和类别性自变量;
4) 分类时计算量小,速度快,存储资源低。
逻辑回归缺点:
1)处理海量、多维、非线性的数据时效果不是很好;
2)算法的范化能力、灵活性比较差;
3)算法处理数据的不对称性问题能力不足;
4)容易欠拟合,一般准确度不太高。