任务2 - 逻辑回归算法梳理

最新推荐文章于 2024-08-09 12:39:33 发布

Tinkle_Sunshine

最新推荐文章于 2024-08-09 12:39:33 发布

阅读量373

点赞数

本文链接：https://blog.csdn.net/weixin_44450461/article/details/88953181

版权

逻辑回归与线性回归的联系与区别
联系：
逻辑回归是在线性回归模型的基础上取对数，使模型更逼近y值，是广义线性回归的一个特例。
形式上，两者都是线性回归。
区别：
逻辑回归是已求取的输入空间对输出空间的非线性映射，而线性回归是线性映射。
逻辑回归多用于分类，线性回归多用于预测
逻辑回归针对非连续变量，线性回归针对连续变量
2、逻辑回归的原理
逻辑回归是用线性回归模型对数的预测结果逼近真实标记的对数几率，也称为对数几率回归。
用条件概率分布的形式表示 P(Y|X)P(Y|X)，这里随机变量 X 取值为 n 维实数向量，例如x=(x(1),x(2),…,x(n))x=(x(1),x(2),…,x(n))，Y 取值为 0 或 1。即：

或
假设有一个二分类问题，输出为y∈{0,1}，于是找到了Sigmoid函数来代替：

由于y∈[0,1]。就可以将其视为类 1 的后验概率估计 p(y=1|X)，用此函数计算出当作该点 x 属于类别 1 的概率大小。
把 Sigmoid 函数计算得到的值大于等于0.5的归为类别1，小于0.5的归为类别0：
逻辑回归损失函数推导及优化
如果用线性回归求损失函数的方法，利用误差平方和来作代价函数，会发现此函数性质非凸，这意味损失函数有很多局部最优解，无法得到全局最优。

要解决的是二分类的问题，则对于输入x分类结果为类别1和类别0的概率分别为：

将两个分类的结果进行整合，

用极大似然函数来求解样本的概率值P

让等式的两边都取对数，对数似然函数为：

这里是用极大似然估计来求使J(θ)取最大值时的θ。
若用梯度下降来求解θ，
θ更新过程如下:

θ迭代：

此时我们就能求出最优的参数θ，继而得到最优的逻辑回归模型，分类未知样本。
正则化与模型评估指标
正则化能有效地实现结构风险最小化，正则化是在经验风险上再加上一个正则化项或惩罚项。正则化项是单调递增函数，模型越复杂，正则化项越大。
正则项可以取不同的形式，在回归问题中取平方损失，就是参数的L2范数，也可以取L1范数。取平方损失时，模型的损失函数变为：

λ是正则项系数：
• 若λ很大，说明对模型的复杂度惩罚大，对拟合数据的损失惩罚小，这样它就不会过分拟合数据，在训练数据上的偏差较大，在未知数据上的方差较小，但是可能出现欠拟合的现象；
• 若λ很小，说明比较注重对训练数据的拟合，在训练数据上的偏差会小，但是可能会导致过拟合。
正则化后的梯度下降算法θ的更新变为：

模型评估指标
使用混淆矩阵来评估模型

（1）精准率
精准率：在有偏（极度偏斜）数据中，通常将预测结果为1作为真正关注的对象，那么在这种情况下预测正确的概率就作为精准率，预测结果为1的时候，预测正确的概率。

（2）召回率
我们关注的事件真实的发生的情况下，成功预测的概率

精准率和召回率有时一个高，一个低；一方增加，另一方就会减少。
（3）F1 score
若需要同时关注精准率和召回率，就要运用新的指标F1 score来兼顾精准率和召回率，
F1 score是精准率和召回率的调和平均值：

（4）ROC曲线
描述TPR和FPR之间的关系
TPR：和召回率相同，表示TP除以真实值为1的数
FPR：用FP除以真实值为0的数

5、逻辑回归的优缺点
优点：
直接对分类的可能性建模，避免假设分布的不准确带来的影响；
可得到近似概率预测，对利用概率辅助决策的事件有帮助；
可直接用于求取最优解
缺点：
当特征空间很大时，逻辑回归性能不佳；
容易欠拟合，一般准确度不太高；
不能很好地处理大多数特征和变量
样本不均衡问题解决办法
一、样本的过采样和欠采样。
1.过采样：复制稀有类别的样本，通过增加此稀有类样本的数量来平衡数据集。该方法适用于数据量较小的情况。
2.欠抽样：从丰富类别的样本中随机选取和稀有类别相同数目的样本，通过减少丰富类的样本量来平衡数据集。该方法适用于数据量较大的情况。

二、使用多个分类器进行分类。
方法一中介绍的过采样，欠采样，都存在相应的问题。

过采样：可能存在过拟合问题
欠采样：可能会存在信息减少的问题。因为只是利用了一部分数据，所以模型只是学习到了一部分模型。

有以下两种方法可以解决欠采样所带来的问题。

方法一：模型融合（bagging的思想）
从丰富类样本集中随机的选取（有放回的选取）和稀有类等量样本的数据，和稀有类样本组合成新的训练集。这样我们就产生了多个训练集，并且是互相独立的，然后训练得到多个分类器。
若是分类问题，就把多个分类器投票的结果（少数服从多数）作为分类结果。
若是回归问题，就将均值作为最后结果。

方法二：增量模型（boosting的思想）
使用全部的样本作为训练集，得到分类器L1
从L1正确分类的样本中和错误分类的样本中各抽取50%的数据，即循环的一边采样一个。此时训练样本是平衡的。训练得到的分类器作为L2.
从L1和L2分类结果中，选取结果不一致的样本作为训练集得到分类器L3.
最后投票L1,L2,L3结果得到最后的分类结果。

三、将二分类问题转换成其他问题。
可以将不平衡的二分类问题转换成异常点检测，或者一分类问题。

四、改变正负类别样本在模型中所占的权重。
使用代价函数学习得到每个类的权值，大类的权值小，小类的权值大。刚开始，可以设置每个类别的权值与样本个数比例的倒数，然后可以使用过采样进行调优。

sklearn参数
sklearn.linear_model.LogisticRegression()
正则化选择参数（惩罚项的种类）：penalty: 可选‘l1’or ‘l2’,默认: ‘l2’
正则化系数λ的倒数：C: float,默认: 1.0
是否存在截距：fit_intercept: bool,默认: True
solver{‘newton-cg’, ‘lbfgs’, ‘liblinear’, ‘sag’},默认: ‘liblinear’
solver参数决定了我们对逻辑回归损失函数的优化方法，有四种算法可以选择，分别是：
a) liblinear：使用了开源的liblinear库实现，内部使用了坐标轴下降法来迭代优化损失函数，适用小样本。
b) lbfgs：拟牛顿法的一种，利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。
c) newton-cg：也是牛顿法家族的一种，利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。
d) sag：即随机平均梯度下降，是梯度下降法的变种，和普通梯度下降法的区别是每次迭代仅仅用一部分的样本来计算梯度，适合于大样本数据。
newton-cg, lbfgs和sag这三种优化算法时都需要损失函数的一阶或者二阶连续导数，只能用于L2正则化。而liblinear可以在L1正则化和L2正则化时使用。