逻辑回归

logistic分布函数和密度函数,手绘大概的图像

  • 分布函数:
  • 密度函数:
  • 其中,μ表示位置参数,γ为形状参数。logistic分布比正太分布有更长的尾部且波峰更尖锐

LR推导,基础5连问

  • 基础公式
    • f(x) = wx + b
    • y = sigmoid(f(x))
    • 可以看作是一次线性拟合+一次sigmoid的非线性变化
  • 伯努利过程
    • 对于lr来说事情只有发生和不发生两种可能,对于已知样本来说,满足伯努利的概率假设:
      • p(y=1/x,θ) = h(θ,x)
      • p(y=0/x,θ) = 1-h(θ,x)
      • p(y/x,θ) = h(θ,x)^y · (1-h(θ,x))^(1-y)
        • 第i个样本正确预测的概率如上可得
    • 几率odds
      • 数据特征下属于正例及反例的比值
      • ln(y/(1-y))
  • 极大似然
    • 第i个样本正确预测的概率如上可得每条样本的情况下
    • 综合全部样本发生的概率都要最大的话,采取极大似然连乘可得:
      • ∏(h(θ,x)^y · (1-h(θ,x))^(1-y))
  • 损失函数
    • 通常会对极大似然取对数,得到损失函数,方便计算
      • ∑ylogh(θ,x)+(1-y)log(1-h(θ,x))最大
      • 及-1/m · ∑ylogh(θ,x)+(1-y)log(1-h(θ,x))最小
  • 梯度下降
    • 损失函数求偏导,更新θ
    • θj+1 = θj - ∆·∂Loss/∂θ =θj - ∆·1/m·∑x·(h-y)
      • ∆为学习率

梯度下降如何并行化?

  • 首先需要理解梯度下降的更新公式:
    • ∑处的并行,不同样本在不同机器上进行计算,计算完再进行合并
    • 同一条样本不同特征维度进行拆分,处并行,把内的xi和Wi拆分成块分别计算后合并,再把外层同样拆分成若干块进行计算

LR明明是分类模型为什么叫回归?

观测样本中该特征在正负类中出现概率的比值满足线性条件,用的是线性拟合比率值,所以叫回归

为什么LR可以用来做CTR预估?

  1. 点击行为为正向,未点击行为为负向,ctr需要得到点击行为的概率,lr可以产出正向行为的概率,完美match
  2. 实现简单,方便并行,计算迭代速度很快
  3. 可解释性强,可结合正则化等优化方法

满足什么样条件的数据用LR最好?

  • 特征之间尽可能独立
    • 不独立所以我们把不独立的特征交叉了
      • 还记得FM的思路?
  • 离散特征
    • 连续特征通常没有特别含义,31岁和32岁差在哪?
    • 离散特征方便交叉考虑
    • 在异常值处理上也更加方便
    • 使的lr满足分布假设
      • 什么分布假设?
  • 在某种
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值