机器学习系列手记（七）：优化算法之有监督学习的损失函数

最新推荐文章于 2023-03-14 11:44:58 发布

岳小刀

最新推荐文章于 2023-03-14 11:44:58 发布

阅读量761

点赞数

分类专栏：机器学习系列手记文章标签：机器学习算法人工智能

本文链接：https://blog.csdn.net/yly_3026925713/article/details/105318949

版权

本文探讨了机器学习中的优化算法，重点在于有监督学习的损失函数，包括0-1损失、Hinge损失、Logistic损失、交叉熵损失、平方损失、绝对损失和Huber损失。这些损失函数作为评估模型与训练样本匹配程度的指标，对模型的训练和优化至关重要。

摘要由CSDN通过智能技术生成

优化算法

实际上，机器学习算法=模型表征+模型评估+优化算法。其中，优化算法所做的事情就是在模型表征空间中找到评估模型指标最好的模型。不同的优化算法对应的模型表征和评估指标不尽相同，例如经典的支持向量机对应的模型表征和评估指标分别是线性分类模型和最大间隔，逻辑回归对应的模型表征和评估指标则分别为线性分类模型和交叉熵。
随着大数据和深度学习的迅猛发展，实际应用中面临的大多是大规模、高度非凸的优化问题，这给传统的基于全量数据、凸优化的优化理论带来了巨大的挑战。如何设计适用于新场景、高效的、准确的优化算法成为近年来研究的热点。优化虽然是一门古老的学科，但是大部分能够用于训练深度神经网络的优化算法都是近几年才被提出的，如Adam算法等。

有监督学习的损失函数

机器学习算法的关键环节是模型评估，而损失函数定义了模型的评估指标，没有损失函数就无法求解模型参数。
在有监督学习中，损失函数刻画了模型和训练样本的匹配程度。假设训练样本的形式为 $x_i,y_i)$ ，其中 $x_i∈X$ 表示第i个样本点的特征， $y_i∈Y$ 表示该样本点的标签。参数为 $\theta$ 的模型可以表示为函数 $f(\cdot,\theta):X→Y$ ，模型关于第i个样本点的输出为 $f(x_i,\theta)$ 。为了刻画模型输出与样本标签的匹配程度，定以损失函数 $L(\cdot,\cdot):X→Y→R_{≥0}$