逻辑回归算法梳理
1、逻辑回归与线性回归的联系与区别
区别:逻辑回归预测值返回的离散值,线性回归返回的连续值
联系:逻辑回归与线性回归都属于广义线性回归模型
2、 逻辑回归的原理
逻辑回归就是这样的一个过程:面对一个回归或者分类问题,建立代价函数,然后通过优化方法迭代求解出最优的模型参数,然后测试验证我们这个求解的模型的好坏
3、逻辑回归损失函数推导及优化
线性回归通过损失函数,设定目标函数,通过最小化损失函数,求解参数,可以利用最小二乘法。
关于为什么线性回归模型可以用最小二乘法,根源是其线性模型的假设是符合高斯马尔科夫假设误差0均值,同方差,且互不相关,这时。(注意线性模型有对误差有正态假设,而高斯马尔科夫假设并没有 正态的假设)。
逻辑回归,因变量是二分变量,不符合这个Gauss…假设,所以可以用极大似然估计来求参数。
4、 正则化与模型评估指标
为防止过度拟合的模型出现(过于复杂的模型),在损失函数里增加一个每个特征的惩罚因子。这个就是正则化
评估指标:
1.混淆矩阵
2.准确率
3.精确率
4.召回率
5、逻辑回归的优缺点
优点:
1)速度快,适合二分类问题
2)简单易于理解,直接看到各个特征的权重
3)能容易地更新模型吸收新的数据
缺点:对数据和场景的适应能力有局限性
6、样本不均衡问题解决办法
方案1:赋予正负例不同权重系数
方案2:可使用bagging方法,重复有放回抽样,训练多个模型,生成一个强学习器做预测