十三、【人工智能】【机器学习】【监督学习】- Lasso回归 (Least Absolute Shrinkage and Selection Operator)

系列文章目录

第一章 【机器学习】初识机器学习

第二章 【机器学习】【监督学习】- 逻辑回归算法 (Logistic Regression)

第三章 【机器学习】【监督学习】- 支持向量机 (SVM)

第四章【机器学习】【监督学习】- K-近邻算法 (K-NN)

第五章【机器学习】【监督学习】- 决策树 (Decision Trees)

第六章【机器学习】【监督学习】- 梯度提升机 (Gradient Boosting Machine, GBM)

第七章 【机器学习】【监督学习】-神经网络 (Neural Networks)

第八章【机器学习】【监督学习】-卷积神经网络 (CNN)

第九章【机器学习】【监督学习】-循环神经网络 (RNN)

第十章【机器学习】【监督学习】-线性回归

第十一章【机器学习】【监督学习】-局部加权线性回归 (Locally Weighted Linear Regression, LWLR)

第十二章【机器学习】【监督学习】- 岭回归 (Ridge Regression)


目录

系列文章目录

前言

一、基本定义

(一)、监督学习

(二)、监督学习的基本流程

(三)、监督学习分类算法(Classification)

二、 Lasso回归 (Least Absolute Shrinkage and Selection Operator)

(一)、定义

(二)、基本概念

(三)、训练过程

(四)、特点:

(五)、适用场景:

(六)、扩展

三、总结


前言

    在先前的文章系列中,我们深入探讨了机器学习的基础框架和算法分类,为读者构建了关于这一领域的坚实理论基础。本章节我们将焦点转向监督学习领域中的一个核心算法—— Lasso回归 (Least Absolute Shrinkage and Selection Operator),旨在详尽解析其内在逻辑、应用实践及重要参数调整策略。


一、基本定义

(一)、监督学习

        监督学习(Supervised Learning)是机器学习中的一种主要方法,其核心思想是通过已知的输入-输出对(即带有标签的数据集)来训练模型,从而使模型能够泛化到未见的新数据上,做出正确的预测或分类。在监督学习过程中,算法“学习”的依据是这些已标记的例子,目标是找到输入特征与预期输出之间的映射关系。

(二)、监督学习的基本流程

        数据收集:获取包含输入特征和对应正确输出标签的训练数据集。
        数据预处理:清洗数据,处理缺失值,特征选择与转换,标准化或归一化数据等,以便于模型学习。
        模型选择:选择合适的算法,如决策树、支持向量机、神经网络等。
        训练:使用训练数据集调整模型参数,最小化预测输出与实际标签之间的差距(损失函数)。
        验证与调优:使用验证集评估模型性能,调整超参数以优化模型。
        测试:最后使用独立的测试集评估模型的泛化能力,确保模型不仅在训练数据上表现良好,也能在未见过的新数据上做出准确预测。

(三)、监督学习分类算法(Classification)

        定义:分类任务的目标是学习一个模型,该模型能够将输入数据分配到预定义的几个类别中的一个。这是一个监督学习问题,需要有一组已经标记好类别的训练数据,模型会根据这些数据学习如何区分不同类别。
        例子:垃圾邮件检测(垃圾邮件 vs. 非垃圾邮件)、图像识别(猫 vs. 狗)。


二、 Lasso回归 (Least Absolute Shrinkage and Selection Operator)

(一)、定义

        Lasso回归(Least Absolute Shrinkage and Selection Operator)是一种线性模型的回归分析技术,特别设计用于特征选择和模型复杂度控制。它通过在最小二乘误差损失函数上添加一个L1范数正则化项,来压缩回归系数,从而使某些特征的系数缩减至零,从而实现特征选择。

(二)、基本概念

        Lasso回归由统计学家Robert Tibshirani于1996年提出,旨在解决高维数据(特征数量远多于观测样本数量)下的变量选择问题。在高维数据集中,传统的最小二乘法可能无法提供稳定可靠的估计,且容易过拟合。Lasso回归通过引入正则化参数(λ),对回归系数的绝对值之和进行惩罚,迫使不重要的特征的系数降为零,从而实现模型简化和特征选择。

(三)、训练过程

Lasso回归的训练过程涉及以下关键步骤:

  1. 定义损失函数:Lasso回归的损失函数通常包含两部分,一部分是最小二乘误差,另一部分是正则化项。正则化项是所有回归系数绝对值之和乘以正则化参数λ。

  2. 优化目标函数:目标是找到一组回归系数,使得损失函数最小。由于L1范数的存在,这个优化问题通常不能通过简单的解析解解决,而是需要使用迭代算法,如坐标下降法(Coordinate Descent)、随机梯度下降(Stochastic Gradient Descent)或最小角度回归(Least Angle Regression)等。

  3. 选择正则化参数:λ的值需要通过交叉验证等方法来确定,以平衡模型的偏差和方差,找到使模型泛化性能最佳的λ值。

(四)、特点

  • 特征选择:Lasso回归能够自动选择重要的特征,将不重要的特征的系数压缩至零,从而实现特征选择。
  • 防止过拟合:通过正则化项,Lasso回归能够防止模型过于复杂,从而减少过拟合的风险。
  • 处理多重共线性:Lasso回归在面对多重共线性问题时,倾向于选择一组变量中的一个,并将其他变量的系数压缩至零。

(五)、适用场景

  • 高维数据:当特征数量远大于样本数量时,Lasso回归可以有效地选择重要的特征,构建简洁的模型。
  • 特征选择:当希望从大量潜在特征中识别出与响应变量最相关的特征时。
  • 模型解释性:由于Lasso回归能够产生稀疏的模型,即只有少数特征具有非零系数,这使得模型更容易解释。

(六)、扩展

Lasso回归的几个扩展和相关技术包括:

  • Elastic Net:结合了Lasso回归(L1正则化)和岭回归(L2正则化)的优点,通过一个混合的正则化项来处理Lasso回归可能存在的缺点,如当有高度相关的特征时,Lasso回归可能只选择其中一个特征,而Elastic Net则可以同时选择两个特征。
  • Adaptive Lasso:为每个回归系数分配一个特定的正则化参数,以更精细地调整特征选择的过程。
  • Group Lasso:当特征可以按组分类时,Group Lasso可以同时选择或排除整个特征组,而不是单个特征。

三、总结

        Lasso回归因其在特征选择和模型复杂度控制方面的优势,在机器学习和统计建模中得到了广泛应用。

   更多内容,防止走丢,请关注公众号,公众号会持续更新各类技术内容和职场介绍:

                                             

码上云游

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值