一、逻辑回归概述
逻辑回归(Logistic Regression)是一种用于解决分类问题(尤其是二分类)的统计学习方法。虽然名字中有“回归”,但它实际上是一种分类算法。
逻辑回归的核心思想是:
【1】通过线性回归计算一个连续值(线性组合)。
【2】再使用Sigmoid函数(Logistic函数)将线性回归的输出映射到 (0,1) 区间,表示概率。
【3】最终根据概率值进行分类(如设定阈值为 0.5,大于 0.5 判为 1,否则判为 0)。
逻辑回归的优点:
【1】计算简单,训练速度快。
【2】输出具有概率解释(可以计算样本属于某类的概率)。
【3】可扩展性强(可结合 L1/L2 正则化防止过拟合)。
逻辑回归的缺点:
【1】仅适用于线性可分或近似线性可分的数据。
【2】对异常值敏感。
【3】不能直接处理多分类问题(但可通过 One-vs-Rest 或 Softmax 扩展)。
逻辑回归是一种常用的机器学习算法,虽然名字里有“回归”,但它实际上是用于解决分类问题的下面通过两个通俗易懂的例子,说明为什么要使用逻辑回归:
例子1:判断邮件是否为垃圾邮件
场景:每天我们都会收到大量邮件,需要快速判断哪些是垃圾邮件(如广告、诈骗信息),哪些是正常邮件。
为什么用逻辑回归?
【1】输入与输出明确:输入是邮件的特征(如标题是否包含“免费”“优惠”,发件人是否陌生,内容是否有大量链接等),输出是一个概率值(例如“这封邮件有80%的概率是垃圾邮件”)。
【2】简单高效:逻辑回归能通过训练数据学习这些特征的权重,比如“标题含‘免费’的权重是0.6,陌生发件人权重是0.8”,然后用公式快速计算概率,不需要复杂的模型结构,适合处理海量邮件。
【3】可解释性强:可以直观知道哪些特征对分类影响更大(如“陌生发件人”比“含链接”更可能让邮件被判定为垃圾邮件),方便后续优化规则(比如拦截高概率的邮件)。
例子2:预测用户是否会点击广告
场景:电商平台想向用户推送广告,需要预测用户是否会点击,从而优化广告投放策略。
为什么用逻辑回归?
【1】概率输出实用:输入用户特征(如年龄、性别、历史浏览记录、购物偏好等),逻辑回归会给出“用户点击广告的概率”(如“25岁女性用户,常浏览美妆产品,点击美妆广告的概率是65%”)。
【2】平衡成本与效果:如果直接按“点击/不点击”二分类,可能错过一些“中等概率”的潜在用户;而逻辑回归的概率值可以灵活设置阈值——比如当概率>50%时投放广告,既能提高点击率,又避免向低概率用户浪费资源。
【3】适配业务需求:广告投放场景中,数据通常是大规模且实时更新的,逻辑回归计算速度快,适合在线上实时预测