Datawhale----初级算法梳理（Task_2）

最新推荐文章于 2024-07-17 00:46:41 发布

-zh-

最新推荐文章于 2024-07-17 00:46:41 发布

阅读量162

点赞数

分类专栏：初级算法梳理文章标签：逻辑回归

本文链接：https://blog.csdn.net/weixin_45054176/article/details/90233716

版权

初级算法梳理专栏收录该内容

3 篇文章 0 订阅

订阅专栏

逻辑回归算法梳理

逻辑回归与线性回归的区别与联系
逻辑回归的原理
逻辑回归损失函数推导及优化
正则化与模型评估指标
逻辑回归的优缺点
样本不均衡问题解决办法

逻辑回归与线性回归的区别与联系

这两种回归可以归于广义线性模型。

1）线性回归要求变量服从正态分布，逻辑回归对变量分布没有要求。

2）线性回归要求因变量是连续性数值变量，而逻辑回归要求因变量是分类型变量。

3）线性回归要求自变量和因变量呈线性关系，而逻辑回归不要求自变量和因变量呈线性关系

4）逻辑回归是分析因变量取某个值的概率与自变量的关系，而线性回归是直接分析因变量与自变量的关系

如果是连续的，就是多重线性回归
如果是二项分布，就是逻辑回归
如果是泊松分布，就是泊松回归
如果是负二项分布，就是负二项回归

逻辑回归的原理

面对一个回归或者分类问题，建立代价函数，然后通过优化方法迭代求解出最优的模型参数，然后测试验证我们这个求解的模型的好坏。它是一种分类方法，主要用于两分类问题（即输出只有两种，分别代表两个类别）回归模型中，y是一个定性变量，比如y=0或1，逻辑方法主要应用于研究某些事件发生的概率

逻辑回归损失函数推导及优化

上面这个式子的计算过程还用到了对数的一些相关的性质，对L(w)求极大值，得到w的估计值
其实实际操作中会加个负号，变成最小化问题，通常会采用随机梯度下降法和拟牛顿迭代法来求解
在这里插入图片描述

正则化与模型评估指标

在训练数据不够多时，或者over training时，常常会导致过拟合（overfitting）。正则化方法即为在此时向原始模型引入额外信息，以便防止过拟合和提高模型泛化性能的一类方法的统称。在实际的深度学习场景中我们几乎总是会发现，最好的拟合模型（从最小化泛化误差的意义上）是一个适当正则化的大型模型。
评价指标是机器学习任务中非常重要的一环。不同的机器学习任务有着不同的评价指标，同时同一种机器学习任务也有着不同的评价指标，每个指标的着重点不一样。如分类（classification）、回归（regression）、排序（ranking）、聚类（clustering）、热门主题模型（topic modeling）、推荐（recommendation）等。并且很多指标可以对多种不同的机器学习模型进行评价，如精确率－召回率（precision-recall），可以用在分类、推荐、排序等中。像分类、回归、排序都是监督式机器学习。

常用监督式机器学习评估指标

分类评价指标
分类评价指标
准确率(Accuracy)
平均准确率(Average Per-class Accuracy)
对数损失函数(Log-loss)
精确率-召回率(Precision-Recall)
F1-score
AUC(Area under the Curve(Receiver Operating Characteristic, ROC))
混淆矩阵(Confusion Matrix)
回归评价指标
排序评价指标

逻辑回归的优缺点

优点：1）适合需要得到一个分类概率的场景。2）计算代价不高，容易理解实现。逻辑算法在时间和内存需求上相当高效。它可以应用于分布式数据，并且还有在线算法实现，用较少的资源处理大型数据。3）逻辑算法对于数据中小噪声的鲁棒性很好，并且不会受到轻微的多重共线性的特别影响。（严重的多重共线性则可以使用逻辑回归结合L2正则化来解决，但是若要得到一个简约模型，L2正则化并不是最好的选择，因为它建立的模型涵盖了全部的特征。）

缺点：1）容易欠拟合，分类精度不高。2）数据特征有缺失或者特征空间很大时表现效果并不好。

样本不均衡问题解决办法

通过过抽样和欠抽样解决样本不均衡
（1）过抽样（over-sampling）：通过增加分类中少数类样本的数量来实现样本均衡，比较好的方法有SMOTE算法。简单来说smote算法的思想是合成新的少数类样本，合成的策略是对每个少数类样本a，从它的最近邻中随机选一个样本b，然后在a、b之间的连线上随机选一点作为新合成的少数类样本。
（2）欠抽样（under-sampling）：通过减少分类中多数类样本的数量来实现样本均衡
通过正负样本的惩罚权重解决样本不均衡
对于分类中不同样本数量的类别分别赋予不同的权重，一般是小样本量类别权重高，大样本量类别权重低。

-zh-

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Datawhale----初级算法梳理（Task_2）

逻辑回归算法梳理逻辑回归与线性回归的区别与联系逻辑回归的原理逻辑回归损失函数推导及优化正则化与模型评估指标逻辑回归的优缺点样本不均衡问题解决办法逻辑回归与线性回归的区别与联系这两种回归可以归于广义线性模型。1）线性回归要求变量服从正态分布，逻辑回归对变量分布没有要求。2）线性回归要求因变量是连续性数值变量，而逻辑回归要求因变量是分类型变量。3）线性回归要求自变量和因变量呈线性关系，而逻辑...
复制链接

扫一扫