逻辑回归梳理

逻辑回归和线性回归的区别

1)线性回归要求变量服从正态分布,logistic回归对变量分布没有要求。
2)线性回归要求因变量是连续性数值变量,而logistic回归要求因变量是分类型变量。
3)线性回归要求自变量和因变量呈线性关系,而logistic回归不要求自变量和因变量呈线性关系
4)logistic回归是分析因变量取某个值的概率与自变量的关系,而线性回归是直接分析因变量与自变量的关系

可以认为逻辑回归的输入是线性回归的输出,将逻辑斯蒂函数(Sigmoid曲线)作用于线性回归的输出得到输出结果。线性回归y = ax + b, 其中a和b是待求参数;

逻辑回归p = S(ax + b), 其中a和b是待求参数, S是逻辑斯蒂函数,然后根据p与1-p的大小确定输出的值,通常阈值取0.5,若p大于0.5则归为1这类。

逻辑回归的原理

1. LR

LR模型可以被认为就是一个被Sigmoid函数(logistic方程)所归一化后的线性回归模型!

逻辑回归(Logistic Regression, LR)模型其实仅在线性回归的基础上,套用了一个逻辑函数,但也就由于这个逻辑函数,使得逻辑回归模型成为了机器学习领域一颗耀眼的明星。

2 直观表述

逻辑回归模型是一种分类模型,用条件概率分布的形式表示 P ( Y ∣ X ) P ( Y ∣ X ) P(Y|X)P(Y|X) P(YX)P(YX),这里随机变量 X 取值为 n 维实数向量,例如 x = ( x ( 1 ) , x ( 2 ) , . . . , x ( n ) ) x=(x(1),x(2),...,x(n)) x=(x(1),x(2),...,x(n)),Y 取值为 0 或 1。即:
P ( Y = 1 ∣ x ) = e x p ( w ⋅ x + b ) / ( 1 + e x p ( w ⋅ x + b ) ) P(Y=1|x)=exp(w⋅x+b)/(1+exp(w⋅x+b)) P(Y=1x)=exp(wx+b)/(1+exp(wx+b))
P ( Y = 0 ∣ 0 ) = 1 / ( 1 + e x p ( w ⋅ x + b ) ) P(Y=0|0)=1/(1+exp(w⋅x+b)) P(Y=00)=1/(1+exp(wx+b))

假设有一个二分类问题,输出为 y ∈ 0 , 1 y∈{0,1} y0,1,二线性回归模型 z = w T x + b z=wTx+b z=wTx+b是个实数值,我们希望有一个理想的阶跃函数来帮我什么实现z值到0/1值的转化,于是找到了Sigmoid函数来代替:
g ( z ) = 1 / ( 1 + e − z ) g(z)=1/(1+e−z) g(z)=1/(1+ez)

有了 Sigmoid 函数之后,由于其值取值范围在[0,1]。就可以将其视为类 1 的后验概率估计 p ( y = 1 ∣ X ) p(y=1|X) p(y=1X)。说白了,就是如果有了一个测试点 x,那么就可以用Sigmoid函数算出来的结果当作该点 x 属于类别 1 的概率大小。

于是,非常自然地,我们把 Sigmoid 函数计算得到的值大于等于0.5的归为类别1,小于0.5的归为类别0:

逻辑回归算法的损失函数

在逻辑回归中,代价函数是一个非凸函数(non-convexfunction),而这意味着代价函数有许多局部最优解,这会影响梯度下降算法寻找去全局最优解。

在这里插入图片描述

通过重新定义代价函数:
在这里插入图片描述
其中:在这里插入图片描述

在这里插入图片描述

这样构建的原因也很简单,当实际y=1时,误差为零,误差随着假设函数变小而变大,相反亦然。

简化:在这里插入图片描述
代入代价函数得到在这里插入图片描述
继而用梯度下降法来优化参数:
在这里插入图片描述
求导过程:

在这里插入图片描述
求导后得到:
在这里插入图片描述

正则化与模型评估指标

正则化:
在实际应用算法时,经常会遇到过拟合问题(over-fitting),处理方法可以是:
1.丢弃那些误差较大的特征,可以选择手工保留或者用一些模型算法实现(PCA)
2.正则化,保留所有特征,但是减少参数的大小或者复杂程度
**模型评估指标:
为了评价模型以及在不同研究者之间进行性能比较,统一采用最广泛的二维混淆矩阵(Confusion matrix)

在这里插入图片描述

  • 准确率(Accuracy):表示正确分类个数占总数的比例

在这里插入图片描述
-召回率(Recall),也叫查全率,表示正确分类的正例个数占实际正例个数的比值

在这里插入图片描述

  • 精确率(Precision),也叫查准率,表示正确分类的正例个数占分类为正例的实例个数比值
    在这里插入图片描述

  • F1-score,基于召回率(Recall)与精准率(Precision)的调和平均,即将召回率和精准率综合起来评价

  • 在这里插入图片描述

  • Fβ加权调和平均:Fβ是F1度量的一般形式,能让我们表达出对查准率、查全率的不同偏好

  • 在这里插入图片描述
    其中,β>0度量了查全率对查准率的相对重要性。β=1时退化为标准的F1;β>1时查全率有更大影响;β<1时查准率有更大影响。

  • ROC曲线(ROC Curve):度量分类中的非均衡性工具
    TPR(True Positive Rate)表示在所有实际为阳性的样本中,被正确地判断为阳性的比率,即:TPR=TP/(TP+FN); FPR( False Positive Rate)表示在所有实际为阴性的样本中,被错误地判断为阳性的比率,即:FPR=FP/(FP+TN)。

  • ROC曲线是以FPR作为X轴,TPR作为Y轴。FPR越大表明预测正类中实际负类越多,TPR越大,预测正类中实际正类越多。ROC曲线如下图所示:
    在这里插入图片描述

逻辑回归的优缺点

优点:
1 适合使用分类的应用场景,且实现简单
2 计算成本代价不高,可执行性高
3 对较小的噪声有很好的鲁棒性
缺点:
1 准确率不高
2 很难处理数据不均衡的问题
3 自身无法筛选特征

样本不均衡问题的解决方法

类别不平衡(class-imbalance)就是指分类任务中不同类别的训练样例数目差别很大的情况,在现实应用中经常会遇到类别不平衡问题,目前有三类做法:
1 欠采样,即去除一些反例使得正、反例数目接近,然后在进行学习
2.对训练集里的正类样例进行“过采样”,即增加一些正例使得正、反例数目接近,然后再进行学习
3 直接基于原始训练集进行学习,但在用训练好的分类器进行预测时,将 y / ( 1 − y ) y/(1-y) y/(1y)嵌入到决策过程中,称为“阈值移动(threshold-moving)”

正则化选择参数

LogisticRegression和LogisticRegressionCV默认就带了正则化项。penalty参数可选择的值为"l1"和"l2".分别对应L1的正则化和L2的正则化,默认是L2的正则化。在调参时如果我们主要的目的只是为了解决过拟合,一般penalty选择L2正则化就够了。但是如果选择L2正则化发现还是过拟合,即预测效果差的时候,就可以考虑L1正则化。另外,如果模型的特征非常多,我们希望一些不重要的特征系数归零,从而让模型系数稀疏化的话,也可以使用L1正则化。
penalty参数的选择会影响我们损失函数优化算法的选择。即参数solver的选择,如果是L2正则化,那么4种可选的算法{‘newton-cg’, ‘lbfgs’, ‘liblinear’, ‘sag’}都可以选择。但是如果penalty是L1正则化的话,就只能选择‘liblinear’了。这是因为L1正则化的损失函数不是连续可导的,而{‘newton-cg’, ‘lbfgs’,‘sag’}这三种优化算法时都需要损失函数的一阶或者二阶连续导数。而‘liblinear’并没有这个依赖。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值