任务2 - 逻辑回归算法梳理

  • 逻辑回归与线性回归的联系与区别
    联系
    逻辑回归是在线性回归模型的基础上取对数,使模型更逼近y值,是广义线性回归的一个特例。
    形式上,两者都是线性回归。
    区别
    逻辑回归是已求取的输入空间对输出空间的非线性映射,而线性回归是线性映射。
    逻辑回归多用于分类,线性回归多用于预测
    逻辑回归针对非连续变量,线性回归针对连续变量
    2、 逻辑回归的原理
    逻辑回归是用线性回归模型对数的预测结果逼近真实标记的对数几率,也称为对数几率回归。
    用条件概率分布的形式表示 P(Y|X)P(Y|X),这里随机变量 X 取值为 n 维实数向量,例如x=(x(1),x(2),…,x(n))x=(x(1),x(2),…,x(n)),Y 取值为 0 或 1。即:
    在这里插入图片描述
    在这里插入图片描述
    假设有一个二分类问题,输出为y∈{0,1},于是找到了Sigmoid函数来代替:
    在这里插入图片描述
    由于y∈[0,1]。就可以将其视为类 1 的后验概率估计 p(y=1|X),用此函数计算出当作该点 x 属于类别 1 的概率大小。
    把 Sigmoid 函数计算得到的值大于等于0.5的归为类别1,小于0.5的归为类别0:
    在这里插入图片描述
  • 逻辑回归损失函数推导及优化
    如果用线性回归求损失函数的方法,利用误差平方和来作代价函数,会发现此函数性质非凸,这意味损失函数有很多局部最优解,无法得到全局最优。
    在这里插入图片描述
    要解决的是二分类的问题,则对于输入x分类结果为类别1和类别0的概率分别为:
    在这里插入图片描述
    将两个分类的结果进行整合,
    在这里插入图片描述
    用极大似然函数来求解样本的概率值P
    在这里插入图片描述
    让等式的两边都取对数,对数似然函数为:
    在这里插入图片描述
    这里是用极大似然估计来求使J(θ)取最大值时的θ。
    若用梯度下降来求解θ,
    θ更新过程如下:
    在这里插入图片描述
    θ迭代:
    在这里插入图片描述
    此时我们就能求出最优的参数θ,继而得到最优的逻辑回归模型,分类未知样本。
  • 正则化与模型评估指标
    正则化能有效地实现结构风险最小化,正则化是在经验风险上再加上一个正则化项或惩罚项。正则化项是单调递增函数,模型越复杂,正则化项越大。
    正则项可以取不同的形式,在回归问题中取平方损失,就是参数的L2范数,也可以取L1范数。取平方损失时,模型的损失函数变为:
    在这里插入图片描述
    λ是正则项系数:
    • 若λ很大,说明对模型的复杂度惩罚大,对拟合数据的损失惩罚小,这样它就不会过分拟合数据,在训练数据上的偏差较大,在未知数据上的方差较小,但是可能出现欠拟合的现象;
    • 若λ很小,说明比较注重对训练数据的拟合,在训练数据上的偏差会小,但是可能会导致过拟合。
    正则化后的梯度下降算法θ的更新变为:
    在这里插入图片描述
    模型评估指标
    使用混淆矩阵来评估模型
    在这里插入图片描述
    (1)精准率
    精准率:在有偏(极度偏斜)数据中,通常将预测结果为1作为真正关注的对象,那么在这种情况下预测正确的概率就作为精准率,预测结果为1的时候,预测正确的概率。
    在这里插入图片描述
    (2)召回率
    我们关注的事件真实的发生的情况下,成功预测的概率
    在这里插入图片描述
    精准率和召回率有时一个高,一个低;一方增加,另一方就会减少。
    (3)F1 score
    若需要同时关注精准率和召回率,就要运用新的指标F1 score来兼顾精准率和召回率,
    F1 score是精准率和召回率的调和平均值:
    在这里插入图片描述
    (4)ROC曲线
    描述TPR和FPR之间的关系
    TPR:和召回率相同,表示TP除以真实值为1的数
    FPR:用FP除以真实值为0的数
    在这里插入图片描述
    5、逻辑回归的优缺点
    优点:
    直接对分类的可能性建模,避免假设分布的不准确带来的影响;
    可得到近似概率预测,对利用概率辅助决策的事件有帮助;
    可直接用于求取最优解
    缺点:
    当特征空间很大时,逻辑回归性能不佳;
    容易欠拟合,一般准确度不太高;
    不能很好地处理大多数特征和变量
  • 样本不均衡问题解决办法
    一、样本的过采样和欠采样。
    1.过采样:复制稀有类别的样本,通过增加此稀有类样本的数量来平衡数据集。该方法适用于数据量较小的情况。
    2.欠抽样:从丰富类别的样本中随机选取和稀有类别相同数目的样本,通过减少丰富类的样本量来平衡数据集。该方法适用于数据量较大的情况。

二、使用多个分类器进行分类。
方法一中介绍的过采样,欠采样,都存在相应的问题。

过采样:可能存在过拟合问题
欠采样:可能会存在信息减少的问题。因为只是利用了一部分数据,所以模型只是学习到了一部分模型。

有以下两种方法可以解决欠采样所带来的问题。

方法一:模型融合 (bagging的思想 )
从丰富类样本集中随机的选取(有放回的选取)和稀有类等量样本的数据,和稀有类样本组合成新的训练集。这样我们就产生了多个训练集,并且是互相独立的,然后训练得到多个分类器。
若是分类问题,就把多个分类器投票的结果(少数服从多数)作为分类结果。
若是回归问题,就将均值作为最后结果。

方法二:增量模型 (boosting的思想)
使用全部的样本作为训练集,得到分类器L1
从L1正确分类的样本中和错误分类的样本中各抽取50%的数据,即循环的一边采样一个。此时训练样本是平衡的。训练得到的分类器作为L2.
从L1和L2分类结果中,选取结果不一致的样本作为训练集得到分类器L3.
最后投票L1,L2,L3结果得到最后的分类结果。

三、将二分类问题转换成其他问题。
可以将不平衡的二分类问题转换成异常点检测,或者一分类问题。

四、改变正负类别样本在模型中所占的权重。
使用代价函数学习得到每个类的权值,大类的权值小,小类的权值大。刚开始,可以设置每个类别的权值与样本个数比例的倒数,然后可以使用过采样进行调优。

  • sklearn参数
    sklearn.linear_model.LogisticRegression()
    正则化选择参数(惩罚项的种类):penalty: 可选‘l1’or ‘l2’,默认: ‘l2’
    正则化系数λ的倒数:C: float,默认: 1.0
    是否存在截距:fit_intercept: bool,默认: True
    solver{‘newton-cg’, ‘lbfgs’, ‘liblinear’, ‘sag’},默认: ‘liblinear’
    solver参数决定了我们对逻辑回归损失函数的优化方法,有四种算法可以选择,分别是:
    a) liblinear:使用了开源的liblinear库实现,内部使用了坐标轴下降法来迭代优化损失函数,适用小样本。
    b) lbfgs:拟牛顿法的一种,利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。
    c) newton-cg:也是牛顿法家族的一种,利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。
    d) sag:即随机平均梯度下降,是梯度下降法的变种,和普通梯度下降法的区别是每次迭代仅仅用一部分的样本来计算梯度,适合于大样本数据。
    newton-cg, lbfgs和sag这三种优化算法时都需要损失函数的一阶或者二阶连续导数,只能用于L2正则化。而liblinear可以在L1正则化和L2正则化时使用。
    在这里插入图片描述
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
逻辑回归是一种分类算法,它的主要思想是根据现有数据对分类边界线(Decision Boundary)建立回归公式,以此进行分类。 与线性回归相似,逻辑回归通过一组预测器变量来预测特征与输出结果。但逻辑回归更适用于二分类问题,输出结果为0或1。通过方程系数,我们可以估计模型中自变量的比率。这使得逻辑回归可以用于确定某个事件的可能性。 逻辑回归和多重线性回归的区别在于因变量的不同。多重线性回归的因变量只有一个,而逻辑回归的因变量可以是二分类,也可以是多分类。广义线性模型家族中的模型基本形式相似,主要区别在于因变量的不同。例如,如果因变量是连续的,那么就是多重线性回归;如果因变量是二项分布,那就是逻辑回归;如果因变量是泊松分布,那就是泊松回归。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [逻辑回归算法梳理](https://blog.csdn.net/pandawang830/article/details/88867221)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *3* [逻辑回归算法](https://blog.csdn.net/qq_39691463/article/details/119257621)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值