关于逻辑回归的思考与整理(附提问)

注意理解

  1. 本质:在普通线性回归模型基础上加以改进,希望以此解决分类问题
    (1) 如何将回归值转换为概率值?
    (2)成本函数如何抉择?

如何将线性回归值转换为概率,为什么使用sigmoid函数?

一般使用sigmoid函数将回归值转换为概率
错误:(1)sigmoid函数取值0-1;(2)sigmoid函数性质优秀;
本质因为作为广义线性模型(GLM)中的一类,逻辑回归的连接函数的 canonical 形式就是 sigmoid函数
逻辑整理:
(1)目的求解二分类问题中事件发生概率h(theta,X) =P(Y=1 | theta,X)
(2)二分类问题可以视作伯努利分布,而伯努利分布属于指数族分布;(写出伯努利分布的指数族分布形式
(3)指数族分布可以用广义线性模型求解;
最终求解结果:In(h(theta,X)/(1 - h(theta,X)))=thetaT X,即h(theta,X)=1/(1+e-theta.X))
原作者链接:https://zhuanlan.zhihu.com/p/22876460
补充:sigmoid函数优缺点
sigmoid函数单调对称,f(x)=f(x)*(1-f(x)),求导简单易实现
导数取值在(0,0.25),容易出现梯度消失,只能处理二分类问题

成本函数如何抉择?为什么二次成本函数不适用?

普通最小二乘法线性回归成本函数为凸函数,存在唯一极值,而逻辑回归如果采用二次成本函数,由于嵌套了sigmoid函数导致成本函数将不再为凸函数,难以取得唯一极值点

交叉熵成本函数推导

推导:
(1)样本取值为1概率:
(2)样本取值为yi概率,yi取值为0或1:
(3)样本当前似然概率:
(4)样本当前对数似然概率:
(5)转换为成本函数(交叉熵函数):
在这里插入图片描述

梯度下降求解推导

(1)对于theta求解
thetaj = thetaj - alpha * dcost(thetaj,xi)/dthetaj
(2)逻辑回归成本函数(交叉熵函数)求导:
在这里插入图片描述

应用总结

优势

(1)逻辑简单,易理解;
(2)回归系数反映特征重要性,可解释性强,结合l1正则化项方便特征选择;
(3)输出值现实中有概率意义;
(4)线性可分数据中效果较好;

缺陷

非线性可分数据中模型效果一般;
如果想提高模型泛化能力,可以构造非线性特征(如何构造?常用手段:离散化,特征组合,交叉);

应用场景

信贷风控,点击率预估等

连续特征离散化优势

由上述内容可知,logistic回归在线性可分数据上表现良好,为了增加在非线性可分数据上的表现,通常可以离散化特征。
原因:
(1)连续特征系数只有1个,而离散化特征在不同区间系数不同,相当于给模型引入了非线性;
(2)特征离散化,增强了模型的鲁棒性:

  1. 对异常数据不再敏感:未处理前,年龄3000000岁会导致回归结果相差较大,而离散化后,大于某个阈值统统视作一类,回归结果波动不大;
  2. 对于数据微小变化不再敏感:特征同一区间波动结果不变

(3)离散化特征可以进行特征交叉,进一步给模型引入了非线性;
(4)离散化特征减小了模型复杂度,减少过拟合风险;
(5)离散特征增加减少很容易,易于快速迭代;
(6)稀疏向量内积乘法运算速度快,计算结果方便存储;

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值