逻辑回归与线性回归的区别与联系
这两种回归可以归于广义线性模型。
1)线性回归要求变量服从正态分布,逻辑回归对变量分布没有要求。
2)线性回归要求因变量是连续性数值变量,而逻辑回归要求因变量是分类型变量。
3)线性回归要求自变量和因变量呈线性关系,而逻辑回归不要求自变量和因变量呈线性关系
4)逻辑回归是分析因变量取某个值的概率与自变量的关系,而线性回归是直接分析因变量与自变量的关系
- 如果是连续的,就是多重线性回归
- 如果是二项分布,就是逻辑回归
- 如果是泊松分布,就是泊松回归
- 如果是负二项分布,就是负二项回归
逻辑回归的原理
面对一个回归或者分类问题,建立代价函数,然后通过优化方法迭代求解出最优的模型参数,然后测试验证我们这个求解的模型的好坏。它是一种分类方法,主要用于两分类问题(即输出只有两种,分别代表两个类别)回归模型中,y是一个定性变量,比如y=0或1,逻辑方法主要应用于研究某些事件发生的概率
逻辑回归损失函数推导及优化
上面这个式子的计算过程还用到了对数的一些相关的性质,对L(w)求极大值,得到w的估计值
其实实际操作中会加个负号,变成最小化问题,通常会采用随机梯度下降法和拟牛顿迭代法来求解
正则化与模型评估指标
在训练数据不够多时,或者over training时,常常会导致过拟合(overfitting)。正则化方法即为在此时向原始模型引入额外信息,以便防止过拟合和提高模型泛化性能的一类方法的统称。在实际的深度学习场景中我们几乎总是会发现,最好的拟合模型(从最小化泛化误差的意义上)是一个适当正则化的大型模型。
评价指标是机器学习任务中非常重要的一环。不同的机器学习任务有着不同的评价指标,同时同一种机器学习任务也有着不同的评价指标,每个指标的着重点不一样。如分类(classification)、回归(regression)、排序(ranking)、聚类(clustering)、热门主题模型(topic modeling)、推荐(recommendation)等。并且很多指标可以对多种不同的机器学习模型进行评价,如精确率-召回率(precision-recall),可以用在分类、推荐、排序等中。像分类、回归、排序都是监督式机器学习。
常用监督式机器学习评估指标
- 分类评价指标
- 分类评价指标
- 准确率(Accuracy)
- 平均准确率(Average Per-class Accuracy)
- 对数损失函数(Log-loss)
- 精确率-召回率(Precision-Recall)
- F1-score
- AUC(Area under the Curve(Receiver Operating Characteristic, ROC))
- 混淆矩阵(Confusion Matrix)
- 回归评价指标
- 排序评价指标
逻辑回归的优缺点
优点:1)适合需要得到一个分类概率的场景。2)计算代价不高,容易理解实现。逻辑算法在时间和内存需求上相当高效。它可以应用于分布式数据,并且还有在线算法实现,用较少的资源处理大型数据。3)逻辑算法对于数据中小噪声的鲁棒性很好,并且不会受到轻微的多重共线性的特别影响。(严重的多重共线性则可以使用逻辑回归结合L2正则化来解决,但是若要得到一个简约模型,L2正则化并不是最好的选择,因为它建立的模型涵盖了全部的特征。)
缺点:1)容易欠拟合,分类精度不高。2)数据特征有缺失或者特征空间很大时表现效果并不好。
样本不均衡问题解决办法
- 通过过抽样和欠抽样解决样本不均衡
(1)过抽样(over-sampling):通过增加分类中少数类样本的数量来实现样本均衡,比较好的方法有SMOTE算法。简单来说smote算法的思想是合成新的少数类样本,合成的策略是对每个少数类样本a,从它的最近邻中随机选一个样本b,然后在a、b之间的连线上随机选一点作为新合成的少数类样本。
(2)欠抽样(under-sampling):通过减少分类中多数类样本的数量来实现样本均衡 - 通过正负样本的惩罚权重解决样本不均衡
对于分类中不同样本数量的类别分别赋予不同的权重,一般是小样本量类别权重高,大样本量类别权重低。