lesson2_逻辑回归

最新推荐文章于 2023-03-17 11:46:24 发布

weixin_45255694

最新推荐文章于 2023-03-17 11:46:24 发布

阅读量441

点赞数

文章标签：机器学习逻辑回归正则化

本文链接：https://blog.csdn.net/weixin_45255694/article/details/116719161

版权

本文探讨了为何不能直接使用线性回归进行分类，重点分析了逻辑回归在处理分类问题时的优势，特别是在极端情况下的表现。同时，文章讨论了多重共线性变量对逻辑回归的影响及解决策略，如增加样本、剔除相关变量、正则化等。还深入讲解了L1和L2正则化对模型的影响，L1正则化能产生稀疏模型用于特征选择，而L2正则化通过权重衰减防止过拟合。最后，提出了通过核技巧使逻辑回归处理非线性关系的方法。

摘要由CSDN通过智能技术生成

Q1. 为什么不能直接用线性回归做分类？尝试从损失函数梯度的角度理解

ANS：线性回归损失函数

线性回归考虑极端情况：当x趋于无穷大的时候，若斜率不变则h(∞)也应该增大，但是线性回归为了满足损失函数最小化，h(∞)会向1靠近，这就会造成斜率逐渐减小，线性函数逐渐趋于水平而无法很好的完成分类的任务；x趋于无穷小时同理。

逻辑回归的损失函数：

逻辑回归考虑极端情况：当x趋于无穷大或无穷小的时候，sigmoid在该点的导数几乎为0，所以极端值在梯度下降求解损失函数最小值的过程中几乎不会产生影响。

Q2. 多重共线性变量会给逻辑回归带来什么问题？为什么？怎么处理？

ANS：多重共线性问题的存在，尤其是非常严重的多重共线性问题的存在，意味着进行回归分析所导入的自变量间存在较强的相关性，而这种相关性的存在会使得统计结果出现系列后果，如参数估计的方差和标准差较大、置信区间变宽、显著性检验不通过、 $R^{2}$ 较高但显著性检验不通过、参数估计及其标准差对数据的敏感性增强且不稳定、回归系数符号有误、各自变量对回归平方和（ESS）或 $R^{2}$ 的贡献难以衡量、基于样本的结果难以衡量总体的情况。可见，共线性问题，会对模型参数估计产生较大的影响，使得模型参数的不可靠、结果不准确；回归结果仅是样本的特征，并不能用以解释总体。一般而言，通过观察 $R^{2}$ 、显著性检验结果可大致确定变量间是否存在多重共线性， $R^{2}$ 高但显著性检验通过的变量不多，可作为初步判定存在多重共线性的线索。此外，变量相关性检验、偏相关系数检验、从属或辅助回归（某一变量和其他生于变量进行回归分析并计算R2）亦可为多重共线性检验提供有效线