逻辑回归

最新推荐文章于 2022-06-05 14:24:31 发布

wpheternal

最新推荐文章于 2022-06-05 14:24:31 发布

阅读量483

点赞数 1

分类专栏：机器学习笔记文章标签：机器学习

本文链接：https://blog.csdn.net/zhizhong0209/article/details/110732632

版权

本文深入探讨逻辑回归的各个方面，包括logistic分布、LR推导、梯度下降优化及其并行化策略、模型适用条件和优缺点。讨论了LR在CTR预估中的应用、与其他算法的对比，并介绍了在sklearn中的实现细节，如penalty和solver选择。总结了逻辑回归的核心——通过极大似然估计和sigmoid函数解决分类问题。

摘要由CSDN通过智能技术生成

逻辑回归

logistic分布函数和密度函数，手绘大概的图像
LR推导，基础5连问
梯度下降如何并行化？
LR明明是分类模型为什么叫回归？
为什么LR可以用来做CTR预估？
满足什么样条件的数据用LR最好？
LR为什么使用sigmoid函数作为激活函数？其他函数不行吗？
利用几率odds的意义在哪？
Sigmoid函数到底起了什么作用？
LR为什么要使用极大似然函数，交互熵作为损失函数？那为什么不选平方损失函数的呢
LR中若标签为+1和-1，损失函数如何推导？
如果有很多的特征高度相关或者说有一个特征重复了100遍，会造成怎样的影响？
为什么要避免共线性？
LR可以用核么？可以怎么用？
LR中的L1/L2正则项是啥？
lr加l1还是l2好？
正则化是依据什么理论实现模型优化？
LR可以用来处理非线性问题么？
为什么LR需要归一化或者取对数?
为什么LR把特征离散化后效果更好？离散化的好处有哪些？
逻辑回归估计参数时的目标函数逻辑回归的值表示概率吗？
LR对比万物？
LR梯度下降方法？
LR的优缺点？
除了做分类，你还会用LR做什么？
你有用过sklearn中的lr么？你用的是哪个包？
看过源码么？为什么去看？
谈一下sklearn.linear_model.LogisticRegression中的penalty和solver的选择？
谈一下sklearn.linear_model.LogisticRegression中对多分类是怎么处理的？
总结

logistic分布函数和密度函数，手绘大概的图像

分布函数：
密度函数：
其中，μ表示位置参数，γ为形状参数。logistic分布比正太分布有更长的尾部且波峰更尖锐

LR推导，基础5连问

基础公式
- f(x) = wx + b
- y = sigmoid(f(x))
- 可以看作是一次线性拟合+一次sigmoid的非线性变化
伯努利过程
- 对于lr来说事情只有发生和不发生两种可能，对于已知样本来说，满足伯努利的概率假设：
  - p(y=1/x,θ) = h(θ,x)
  - p(y=0/x,θ) = 1-h(θ,x)
  - p(y/x,θ) = h(θ,x)^y · (1-h(θ,x))^(1-y)
    - 第i个样本正确预测的概率如上可得
- 几率odds
  - 数据特征下属于正例及反例的比值
  - ln(y/(1-y))
极大似然
- 第i个样本正确预测的概率如上可得每条样本的情况下
- 综合全部样本发生的概率都要最大的话，采取极大似然连乘可得：
  - ∏(h(θ,x)^y · (1-h(θ,x))^(1-y))
损失函数
- 通常会对极大似然取对数，得到损失函数，方便计算
  - ∑ylogh(θ,x)+(1-y)log(1-h(θ,x))最大
  - 及-1/m · ∑ylogh(θ,x)+(1-y)log(1-h(θ,x))最小
梯度下降
- 损失函数求偏导，更新θ
- θj+1 = θj - ∆·∂Loss/∂θ =θj - ∆·1/m·∑x·(h-y)
  - ∆为学习率