1 什么是逻辑回归
逻辑回归(Logistic Regression)是一种用于解决二分类(0 or 1)问题的机器学习方法,用于估计某种事物的可能性。比如某用户购买某商品的可能性,某病人患有某种疾病的可能性,以及某广告被用户点击的可能性等。
注意:这里用的是“可能性”,而非数学上的“概率”,logisitc回归的结果并非数学定义中的概率值,不可以直接当做概率值来用。
逻辑回归是以线性回归为理论支持的,但是逻辑回归通过Sigmoid函数引入了非线性因素,因此可以轻松处理0/1分类问题。
2逻辑回归模型
逻辑回归是解决分类问题的,本质是求概率再分类。在分类结果的背后是隐藏变量的博弈,我们认为隐藏变量与特征是线性相关的,因此就可以对隐藏变量之差求概率(得到随机变量的累积分布函数),得到probit回归模型。
为了使数学公式更为简单,使用sigmoid函数去近似,最终得到逻辑回归模型:
3逻辑回归的损失函数
令逻辑回归的模型为h0(x,),则可以将其视为类1的后验概率,其代价函数为:
以上两个式子,可以改写为一般形式:
因此根据最大似然估计,可以得到:
为了简化计算,取对数将得到:
希望极大似然越大越好,对于给定样本数量m,希望越小越好,得到逻辑回归的损失函数如下:
所以说逻辑回归的损失函数不是定义出来的,而是根据最大似然估计推导出来的。
这个损失函数是没有标准方程解的,因此在实际的优化中,我们往往直接使用梯度下降法来不断逼近最优解。
4 损失函数的梯度
对于损失函数:
使用梯度下降法,就要求出梯度,对每一个向量中每一个参数,都求出对应的导数:
最终求的损失函数对参数的导数如下,即逻辑回归的损失函数经过梯度下降法对一个参数进行求导,得到结果如下:
其中 就是逻辑回归模型的预测值。
在求得对一个参数的导数之后,则可以对所有特征维度上对损失函数进行求导,得到向量化后的结果如下:
5决策边界
5.1 什么是决策边界
对于逻辑回归公式:
也就是,其中有一个边界点t=0 ,大于这个边界点,分类为1,小于这个边界点,分类为0,称之为决策边界(decision boundary)。
5.2 线性&非线性决策边界
所谓决策边界就是能够把样本正确分类的一条边界,主要有线性决策边界(linear decision boundaries)和非线性决策边界(non-linear decision boundaries)。
注意:决策边界是假设函数的属性,由参数决定,而不是由数据集的特征决定。
线性的决策边界
非线性的决策边界
5.3 线性回归转换成多项式回归
多项式回归就是把一次特征转换成高次特征的线性组合多项式,举例来说,对于一元线性回归模型:
扩展成一元多项式回归模型就是:
这个最高次d应取合适的值,如果太大,模型会很复杂,容易过拟合。
5.4总结
决策边界是分类中非常重要的一个概念。
线性决策边界就是一条直线,而在真实数据,很少是一根直线就能分类的,通常都要加上多项式项,也就是非线性的决策边界,这样才能解决更复杂的问题。
但是多项式项的阶数越大,越容易过拟合。那么就要进行模型的正则化。
6 逻辑回归的优点和缺点
优点:
1)预测结果是介于0和1之间的概率;
2)可以适用于连续性和类别性自变量;
3)容易使用和解释。
缺点:
1)对模型中自变量多重共线性较为敏感,例如两个高度相关自变量同时放入模型,可能导致较弱的一个自变量回归符号不符合预期,符号被扭转。需要利用因子分析或者变量聚类分析等手段来选择代表性的自变量,以减少候选变量之间的相关性;
2)预测结果呈“S”型,因此从log(odds)向概率转化的过程是非线性的,在两端随着log(odds)值的变化,概率变化很小,边际值太小,slope太小,而中间概率的变化很大,很敏感。 导致很多区间的变量变化对目标概率的影响没有区分度,无法确定阀值。