Datawhale----初级算法梳理(Task_2)

逻辑回归与线性回归的区别与联系

这两种回归可以归于广义线性模型。

1)线性回归要求变量服从正态分布,逻辑回归对变量分布没有要求。

2)线性回归要求因变量是连续性数值变量,而逻辑回归要求因变量是分类型变量。

3)线性回归要求自变量和因变量呈线性关系,而逻辑回归不要求自变量和因变量呈线性关系

4)逻辑回归是分析因变量取某个值的概率与自变量的关系,而线性回归是直接分析因变量与自变量的关系

  • 如果是连续的,就是多重线性回归
  • 如果是二项分布,就是逻辑回归
  • 如果是泊松分布,就是泊松回归
  • 如果是负二项分布,就是负二项回归

逻辑回归的原理

面对一个回归或者分类问题,建立代价函数,然后通过优化方法迭代求解出最优的模型参数,然后测试验证我们这个求解的模型的好坏。它是一种分类方法,主要用于两分类问题(即输出只有两种,分别代表两个类别)回归模型中,y是一个定性变量,比如y=0或1,逻辑方法主要应用于研究某些事件发生的概率

逻辑回归损失函数推导及优化


上面这个式子的计算过程还用到了对数的一些相关的性质,对L(w)求极大值,得到w的估计值
其实实际操作中会加个负号,变成最小化问题,通常会采用随机梯度下降法拟牛顿迭代法来求解
在这里插入图片描述

正则化与模型评估指标

在训练数据不够多时,或者over training时,常常会导致过拟合(overfitting)。正则化方法即为在此时向原始模型引入额外信息,以便防止过拟合和提高模型泛化性能的一类方法的统称。在实际的深度学习场景中我们几乎总是会发现,最好的拟合模型(从最小化泛化误差的意义上)是一个适当正则化的大型模型。
评价指标是机器学习任务中非常重要的一环。不同的机器学习任务有着不同的评价指标,同时同一种机器学习任务也有着不同的评价指标,每个指标的着重点不一样。如分类(classification)、回归(regression)、排序(ranking)、聚类(clustering)、热门主题模型(topic modeling)、推荐(recommendation)等。并且很多指标可以对多种不同的机器学习模型进行评价,如精确率-召回率(precision-recall),可以用在分类、推荐、排序等中。像分类、回归、排序都是监督式机器学习。

常用监督式机器学习评估指标

  • 分类评价指标
  • 分类评价指标
  • 准确率(Accuracy)
  • 平均准确率(Average Per-class Accuracy)
  • 对数损失函数(Log-loss)
  • 精确率-召回率(Precision-Recall)
  • F1-score
  • AUC(Area under the Curve(Receiver Operating Characteristic, ROC))
  • 混淆矩阵(Confusion Matrix)
  • 回归评价指标
  • 排序评价指标

逻辑回归的优缺点

优点:1)适合需要得到一个分类概率的场景。2)计算代价不高,容易理解实现。逻辑算法在时间和内存需求上相当高效。它可以应用于分布式数据,并且还有在线算法实现,用较少的资源处理大型数据。3)逻辑算法对于数据中小噪声的鲁棒性很好,并且不会受到轻微的多重共线性的特别影响。(严重的多重共线性则可以使用逻辑回归结合L2正则化来解决,但是若要得到一个简约模型,L2正则化并不是最好的选择,因为它建立的模型涵盖了全部的特征。)

缺点:1)容易欠拟合,分类精度不高。2)数据特征有缺失或者特征空间很大时表现效果并不好。

样本不均衡问题解决办法

  • 通过过抽样和欠抽样解决样本不均衡
    (1)过抽样(over-sampling):通过增加分类中少数类样本的数量来实现样本均衡,比较好的方法有SMOTE算法。简单来说smote算法的思想是合成新的少数类样本,合成的策略是对每个少数类样本a,从它的最近邻中随机选一个样本b,然后在a、b之间的连线上随机选一点作为新合成的少数类样本。
    (2)欠抽样(under-sampling):通过减少分类中多数类样本的数量来实现样本均衡
  • 通过正负样本的惩罚权重解决样本不均衡
    对于分类中不同样本数量的类别分别赋予不同的权重,一般是小样本量类别权重高,大样本量类别权重低。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值