二、【人工智能】【机器学习】【监督学习】- 逻辑回归算法 (Logistic Regression)

暴躁的大熊

已于 2024-08-01 17:01:39 修改

阅读量907

点赞数 19

分类专栏：人工智能文章标签：机器学习学习回归

于 2024-06-20 15:16:51 首次发布

本文链接：https://blog.csdn.net/xgq8217/article/details/139826053

版权

人工智能专栏收录该内容

46 篇文章 0 订阅

订阅专栏

系列文章目录

第一章【机器学习】初识机器学习

第二章【机器学习】【监督学习】- 逻辑回归算法 (Logistic Regression)

第三章【机器学习】【监督学习】- 支持向量机 (SVM)

第四章【机器学习】【监督学习】- K-近邻算法 (K-NN)

第五章【机器学习】【监督学习】- 决策树 (Decision Trees)

第六章【机器学习】【监督学习】- 梯度提升机 (Gradient Boosting Machine, GBM)

第七章【机器学习】【监督学习】-神经网络 (Neural Networks)

第八章【机器学习】【监督学习】-卷积神经网络 (CNN)

第九章【机器学习】【监督学习】-循环神经网络 (RNN)

第十章【机器学习】【监督学习】-线性回归

第十一章【机器学习】【监督学习】-局部加权线性回归 (Locally Weighted Linear Regression, LWLR)

第十二章【机器学习】【监督学习】- 岭回归 (Ridge Regression)

文章目录

（三）、监督学习分类算法（Classification）

二、逻辑回归算法 (Logistic Regression)

（一）、逻辑回归（Logistic Regression）定义

前言

在上一章【机器学习】初始机器学习中已对机器学习的基本学习思路和算法进行了分类和解释。在本章中主要介绍监督学习中的分类算法的逻辑归回算法。

一、基本定义

（一）、监督学习

监督学习（Supervised Learning）是机器学习中的一种主要方法，其核心思想是通过已知的输入-输出对（即带有标签的数据集）来训练模型，从而使模型能够泛化到未见的新数据上，做出正确的预测或分类。在监督学习过程中，算法“学习”的依据是这些已标记的例子，目标是找到输入特征与预期输出之间的映射关系。

（二）、监督学习的基本流程

数据收集：获取包含输入特征和对应正确输出标签的训练数据集。
数据预处理：清洗数据，处理缺失值，特征选择与转换，标准化或归一化数据等，以便于模型学习。
模型选择：选择合适的算法，如决策树、支持向量机、神经网络等。
训练：使用训练数据集调整模型参数，最小化预测输出与实际标签之间的差距（损失函数）。
验证与调优：使用验证集评估模型性能，调整超参数以优化模型。
测试：最后使用独立的测试集评估模型的泛化能力，确保模型不仅在训练数据上表现良好，也能在未见过的新数据上做出准确预测。

（三）、监督学习分类算法（Classification）

定义：分类任务的目标是学习一个模型，该模型能够将输入数据分配到预定义的几个类别中的一个。这是一个监督学习问题，需要有一组已经标记好类别的训练数据，模型会根据这些数据学习如何区分不同类别。
例子：垃圾邮件检测（垃圾邮件 vs. 非垃圾邮件）、图像识别（猫 vs. 狗）。

二、逻辑回归算法 (Logistic Regression)

（一）、逻辑回归（Logistic Regression）定义

逻辑回归（Logistic Regression）是一种广泛应用于分类问题的统计学方法，尽管其名称中含有“回归”二字，但实际上它是一种分类算法。逻辑回归主要用于解决二分类问题，即预测某个事件发生的概率。它通过使用逻辑函数（通常为Sigmoid函数）将线性回归的输出映射到(0,1)区间内，以此来表示某一事件发生的概率。

（二）、基本概念

Sigmoid函数：逻辑回归的核心是使用Sigmoid函数，形式为 $f\displaystyle (x)=\frac{1}{1+e^{-x}}$ ，其图形是一个S形曲线，输出范围在(0,1)之间，非常适合用来表示概率。

线性模型：与线性回归类似，逻辑回归首先构建一个线性组合来表示输入特征与输出之间的关系，即 $z=\beta_{0}+\beta_{1}x_{1}+\beta_{2}x_{2}+...+\beta_{n}x_{n}$ ，其中𝛽𝑖是模型参数，𝑥𝑖是输入特征。

概率表达：将上述线性组合z代入Sigmoid函数中，得到事件发生的概率估计 $p(y=1|x)=\frac{1}{1+e^{-(\beta_{0} +\beta_{1}x_{1}+\beta_{2}x_{2}+...+\beta_{n}x_{n})}}$ 。

决策边界：逻辑回归通过找到一个阈值（通常为0.5），将概率值转换为类别预测。当𝑃(𝑦=1∣𝑥)>0.5 时，预测类别为1；反之，则为0。模型的参数决定了这个分类的决策边界，即两类数据的分界线。

（三）、训练过程

逻辑回归模型的参数（𝛽𝑖）通过极大似然估计来确定，通常采用梯度上升或梯度下降法来优化损失函数（如交叉熵损失函数），以找到最佳参数值。损失函数衡量模型预测概率与实际标签之间的不一致程度。

（四）、扩展（交叉熵损失函数）

1.交叉熵损失函数定义

        交叉熵损失函数（Cross-Entropy Loss Function）是机器学习和深度学习中常用的损失函数之一，特别是在分类问题中，它衡量了两个概率分布之间的差异。在逻辑回归、神经网络、特别是深度学习的分类任务中，交叉熵损失是评估模型预测概率分布与实际标签（或目标）概率分布之间不一致性的标准方法。

2.交叉熵损失基本概念

        2.1概率分布：在二分类问题中，我们通常关心的是模型预测某个类别的概率（如属于正类的概率 𝑝）与实际类别标签（如果实际类别是正类，标签为1，否则为0）之间的差异。在多分类问题中，则涉及到每个类别的概率分布。

        2.2二分类交叉熵损失：对于二分类问题，如果 𝑦 是实际标签（0或1），而 𝑦^ 是模型预测的该样本属于正类的概率（一个介于0和1之间的值），二分类交叉熵损失定义为：

如果 𝑦=1，损失简化为 −log⁡(𝑦^)；如果 𝑦=0，则为 −log⁡(1−𝑦^)。这鼓励模型使正例的预测概率尽可能接近1，负例的预测概率接近0。

2.3多分类交叉熵损失（Softmax交叉熵）：在多分类问题中，通常使用Softmax函数将模型的输出转化为概率分布，然后计算交叉熵。如果 𝑝 是实际的one-hot编码标签向量，而 𝑝^ 是模型输出的概率分布（经过Softmax层后的输出），多分类交叉熵损失定义为：

其中，𝐶C 是类别总数，𝑝𝑐 和 𝑝^𝑐分别是第 𝑐类的实际概率和预测概率。

3.交叉熵损失作用

优化目标：通过最小化交叉熵损失，模型学习调整其参数，以使预测概率分布尽可能接近真实标签的分布，从而提高分类的准确性。
梯度性质：交叉熵损失函数在数学上易于求导，其梯度可以直接提供关于如何调整模型参数以减少损失的信息，非常适合梯度下降等优化算法。
总结：交叉熵损失函数因其良好的数学性质和对概率分布的直接度量，在机器学习和深度学习的分类任务中扮演着核心角色。通过最小化交叉熵损失，模型能够更有效地学习数据中的分类边界，提高预测的准确性。

（五）、特点与适用场景

优点：逻辑回归模型简单、解释性强，训练速度快，对数据量要求不高，易于实现和理解。
缺点：假设数据线性可分，对非线性关系处理能力有限，且对数据的独立同分布假设较为敏感。
适用场景：逻辑回归广泛应用于信用评分、疾病诊断、邮件过滤等二分类问题中，对于特征和目标变量间存在线性关系的情况表现良好。

（六）、扩展

对于多分类问题，逻辑回归可以通过“一对多”（One-vs-Rest, OvR）或“一对一”（One-vs-One, OvO）策略进行扩展，其中最常用的是softmax函数替代Sigmoid函数，形成了多分类逻辑回归，也称为多项逻辑回归（Multinomial Logistic Regression）或softmax回归。

三、总结

综上所述，本文深入探讨了监督学习的基本概念、流程以及其中的一个核心算法——逻辑回归。逻辑回归作为一种经典的分类方法，通过运用Sigmoid函数巧妙地将线性模型的输出转化为概率预测，尤其擅长处理二分类问题。文章详细解析了其工作原理，包括Sigmoid函数的角色、模型参数的训练方式，特别是强调了交叉熵损失函数的重要性，它是优化模型性能、确保分类准确性的关键。此外，还阐述了逻辑回归的优缺点及其在实际应用中的广泛场景，同时指出了向多分类问题扩展的方法。

通过本章的介绍，读者不仅能掌握监督学习及逻辑回归的基本原理，还能理解其背后的数学逻辑与实际操作中的考量，为进一步深入学习机器学习的其他高级主题奠定了坚实的基础。总之，逻辑回归作为机器学习领域的基石之一，其简洁而强大的特性使之成为解决众多实际问题的首选工具，体现了机器学习在现代社会数据分析与决策支持中的强大潜力。

更多内容，防止走丢，请关注公众号，公众号会持续更新各类技术内容和职场介绍：