逻辑回归
- logistic分布函数和密度函数,手绘大概的图像
- LR推导,基础5连问
- 梯度下降如何并行化?
- LR明明是分类模型为什么叫回归?
- 为什么LR可以用来做CTR预估?
- 满足什么样条件的数据用LR最好?
- LR为什么使用sigmoid函数作为激活函数?其他函数不行吗?
- 利用几率odds的意义在哪?
- Sigmoid函数到底起了什么作用?
- LR为什么要使用极大似然函数,交互熵作为损失函数?那为什么不选平方损失函数的呢
- LR中若标签为+1和-1,损失函数如何推导?
- 如果有很多的特征高度相关或者说有一个特征重复了100遍,会造成怎样的影响?
- 为什么要避免共线性?
- LR可以用核么?可以怎么用?
- LR中的L1/L2正则项是啥?
- lr加l1还是l2好?
- 正则化是依据什么理论实现模型优化?
- LR可以用来处理非线性问题么?
- 为什么LR需要归一化或者取对数?
- 为什么LR把特征离散化后效果更好?离散化的好处有哪些?
- 逻辑回归估计参数时的目标函数逻辑回归的值表示概率吗?
- LR对比万物?
- LR梯度下降方法?
- LR的优缺点?
- 除了做分类,你还会用LR做什么?
- 你有用过sklearn中的lr么?你用的是哪个包?
- 看过源码么?为什么去看?
- 谈一下sklearn.linear_model.LogisticRegression中的penalty和solver的选择?
- 谈一下sklearn.linear_model.LogisticRegression中对多分类是怎么处理的?
- 总结
logistic分布函数和密度函数,手绘大概的图像
- 分布函数:
- 密度函数:
- 其中,μ表示位置参数,γ为形状参数。logistic分布比正太分布有更长的尾部且波峰更尖锐
LR推导,基础5连问
- 基础公式
- f(x) = wx + b
- y = sigmoid(f(x))
- 可以看作是一次线性拟合+一次sigmoid的非线性变化
- 伯努利过程
- 对于lr来说事情只有发生和不发生两种可能,对于已知样本来说,满足伯努利的概率假设:
- p(y=1/x,θ) = h(θ,x)
- p(y=0/x,θ) = 1-h(θ,x)
- p(y/x,θ) = h(θ,x)^y · (1-h(θ,x))^(1-y)
- 第i个样本正确预测的概率如上可得
- 几率odds
- 数据特征下属于正例及反例的比值
- ln(y/(1-y))
- 对于lr来说事情只有发生和不发生两种可能,对于已知样本来说,满足伯努利的概率假设:
- 极大似然
- 第i个样本正确预测的概率如上可得每条样本的情况下
- 综合全部样本发生的概率都要最大的话,采取极大似然连乘可得:
- ∏(h(θ,x)^y · (1-h(θ,x))^(1-y))
- 损失函数
- 通常会对极大似然取对数,得到损失函数,方便计算
- ∑ylogh(θ,x)+(1-y)log(1-h(θ,x))最大
- 及-1/m · ∑ylogh(θ,x)+(1-y)log(1-h(θ,x))最小
- 通常会对极大似然取对数,得到损失函数,方便计算
- 梯度下降
- 损失函数求偏导,更新θ
- θj+1 = θj - ∆·∂Loss/∂θ =θj - ∆·1/m·∑x·(h-y)
- ∆为学习率
梯度下降如何并行化?
- 首先需要理解梯度下降的更新公式:
- ∑处的并行,不同样本在不同机器上进行计算,计算完再进行合并
- 同一条样本不同特征维度进行拆分,处并行,把内的xi和Wi拆分成块分别计算后合并,再把外层同样拆分成若干块进行计算
LR明明是分类模型为什么叫回归?
观测样本中该特征在正负类中出现概率的比值满足线性条件,用的是线性拟合比率值,所以叫回归
为什么LR可以用来做CTR预估?
- 点击行为为正向,未点击行为为负向,ctr需要得到点击行为的概率,lr可以产出正向行为的概率,完美match
- 实现简单,方便并行,计算迭代速度很快
- 可解释性强,可结合正则化等优化方法
满足什么样条件的数据用LR最好?
- 特征之间尽可能独立
- 不独立所以我们把不独立的特征交叉了
- 还记得FM的思路?
- 不独立所以我们把不独立的特征交叉了
- 离散特征
- 连续特征通常没有特别含义,31岁和32岁差在哪?
- 离散特征方便交叉考虑
- 在异常值处理上也更加方便
- 使的lr满足分布假设
- 什么分布假设?
- 在某种