十三、【人工智能】【机器学习】【监督学习】- Lasso回归 (Least Absolute Shrinkage and Selection Operator)

暴躁的大熊

已于 2024-08-01 17:05:36 修改

阅读量766

点赞数 30

分类专栏：人工智能文章标签：机器学习学习回归

于 2024-07-14 07:53:33 首次发布

本文链接：https://blog.csdn.net/xgq8217/article/details/140394012

版权

人工智能专栏收录该内容

46 篇文章 0 订阅

订阅专栏

系列文章目录

第一章【机器学习】初识机器学习

第二章【机器学习】【监督学习】- 逻辑回归算法 (Logistic Regression)

第三章【机器学习】【监督学习】- 支持向量机 (SVM)

第四章【机器学习】【监督学习】- K-近邻算法 (K-NN)

第五章【机器学习】【监督学习】- 决策树 (Decision Trees)

第六章【机器学习】【监督学习】- 梯度提升机 (Gradient Boosting Machine, GBM)

第七章【机器学习】【监督学习】-神经网络 (Neural Networks)

第八章【机器学习】【监督学习】-卷积神经网络 (CNN)

第九章【机器学习】【监督学习】-循环神经网络 (RNN)

第十章【机器学习】【监督学习】-线性回归

第十一章【机器学习】【监督学习】-局部加权线性回归 (Locally Weighted Linear Regression, LWLR)

第十二章【机器学习】【监督学习】- 岭回归 (Ridge Regression)

（三）、监督学习分类算法（Classification）

二、 Lasso回归 (Least Absolute Shrinkage and Selection Operator)

前言

在先前的文章系列中，我们深入探讨了机器学习的基础框架和算法分类，为读者构建了关于这一领域的坚实理论基础。本章节我们将焦点转向监督学习领域中的一个核心算法—— Lasso回归 (Least Absolute Shrinkage and Selection Operator)，旨在详尽解析其内在逻辑、应用实践及重要参数调整策略。

一、基本定义

（一）、监督学习

监督学习（Supervised Learning）是机器学习中的一种主要方法，其核心思想是通过已知的输入-输出对（即带有标签的数据集）来训练模型，从而使模型能够泛化到未见的新数据上，做出正确的预测或分类。在监督学习过程中，算法“学习”的依据是这些已标记的例子，目标是找到输入特征与预期输出之间的映射关系。

（二）、监督学习的基本流程

数据收集：获取包含输入特征和对应正确输出标签的训练数据集。
        数据预处理：清洗数据，处理缺失值，特征选择与转换，标准化或归一化数据等，以便于模型学习。
        模型选择：选择合适的算法，如决策树、支持向量机、神经网络等。
        训练：使用训练数据集调整模型参数，最小化预测输出与实际标签之间的差距（损失函数）。
        验证与调优：使用验证集评估模型性能，调整超参数以优化模型。
        测试：最后使用独立的测试集评估模型的泛化能力，确保模型不仅在训练数据上表现良好，也能在未见过的新数据上做出准确预测。

（三）、监督学习分类算法（Classification）

定义：分类任务的目标是学习一个模型，该模型能够将输入数据分配到预定义的几个类别中的一个。这是一个监督学习问题，需要有一组已经标记好类别的训练数据，模型会根据这些数据学习如何区分不同类别。
例子：垃圾邮件检测（垃圾邮件 vs. 非垃圾邮件）、图像识别（猫 vs. 狗）。

二、 Lasso回归 (Least Absolute Shrinkage and Selection Operator)

（一）、定义

Lasso回归（Least Absolute Shrinkage and Selection Operator）是一种线性模型的回归分析技术，特别设计用于特征选择和模型复杂度控制。它通过在最小二乘误差损失函数上添加一个L1范数正则化项，来压缩回归系数，从而使某些特征的系数缩减至零，从而实现特征选择。

（二）、基本概念

Lasso回归由统计学家Robert Tibshirani于1996年提出，旨在解决高维数据（特征数量远多于观测样本数量）下的变量选择问题。在高维数据集中，传统的最小二乘法可能无法提供稳定可靠的估计，且容易过拟合。Lasso回归通过引入正则化参数（λ），对回归系数的绝对值之和进行惩罚，迫使不重要的特征的系数降为零，从而实现模型简化和特征选择。

（三）、训练过程

Lasso回归的训练过程涉及以下关键步骤：

定义损失函数：Lasso回归的损失函数通常包含两部分，一部分是最小二乘误差，另一部分是正则化项。正则化项是所有回归系数绝对值之和乘以正则化参数λ。
优化目标函数：目标是找到一组回归系数，使得损失函数最小。由于L1范数的存在，这个优化问题通常不能通过简单的解析解解决，而是需要使用迭代算法，如坐标下降法（Coordinate Descent）、随机梯度下降（Stochastic Gradient Descent）或最小角度回归（Least Angle Regression）等。
选择正则化参数：λ的值需要通过交叉验证等方法来确定，以平衡模型的偏差和方差，找到使模型泛化性能最佳的λ值。

（四）、特点：

特征选择：Lasso回归能够自动选择重要的特征，将不重要的特征的系数压缩至零，从而实现特征选择。
防止过拟合：通过正则化项，Lasso回归能够防止模型过于复杂，从而减少过拟合的风险。
处理多重共线性：Lasso回归在面对多重共线性问题时，倾向于选择一组变量中的一个，并将其他变量的系数压缩至零。

（五）、适用场景：

高维数据：当特征数量远大于样本数量时，Lasso回归可以有效地选择重要的特征，构建简洁的模型。
特征选择：当希望从大量潜在特征中识别出与响应变量最相关的特征时。
模型解释性：由于Lasso回归能够产生稀疏的模型，即只有少数特征具有非零系数，这使得模型更容易解释。

（六）、扩展

Lasso回归的几个扩展和相关技术包括：

Elastic Net：结合了Lasso回归（L1正则化）和岭回归（L2正则化）的优点，通过一个混合的正则化项来处理Lasso回归可能存在的缺点，如当有高度相关的特征时，Lasso回归可能只选择其中一个特征，而Elastic Net则可以同时选择两个特征。
Adaptive Lasso：为每个回归系数分配一个特定的正则化参数，以更精细地调整特征选择的过程。
Group Lasso：当特征可以按组分类时，Group Lasso可以同时选择或排除整个特征组，而不是单个特征。