各种损失函数

合页损失函数、折页损失函数(Hinge loss)

  损失函数的一个类型,用于分类模型以寻找距离每个样本的距离最大的决策边界,即最大化样本和边界之间的边缘。KSVMs 使用 hinge 损失函数(或相关的函数,比如平方 hinge 函数)。在二元分类中,hinge 损失函数按以下方式定义:
  loss=max(0,1−(y′ y))*
  其中, y’是分类器模型的列输出:y′=b+w_1x_1+w_2x_2+…w_n*x_n;y 是真实的标签,-1 或+1。
  因此,hinge 损失将是下图所示的样子:
在这里插入图片描述

广义线性模型

  深度学习从统计学角度,可以看做递归的广义线性模型。广义线性模型相对于经典的线性模型(y=wx+b),核心在于引入了连接函数g(.),形式变为:
  y=g(wx+b)

  深度学习时递归的广义线性模型,神经元的激活函数,即为广义线性模型的链接函数。逻辑回归(广义线性模型的一种)的Logistic函数即为神经元激活函数中的Sigmoid函数,很多类似的方法在统计学和神经网络中的名称不一样,容易引起初学者的困惑。

  下图是一个对照表:
在这里插入图片描述

损失函数和优化器是深度学习中非常重要的概念,损失函数用于衡量模型预测结果与实际结果的差异,而优化器则用于调整模型参数以最小化损失函数。以下是它们的具体意义、标准以及各种损失函数和优化器的特点和注意事项。 ## 损失函数 ### 意义 损失函数用于评估模型在训练集上的表现。它将模型的预测结果与实际结果进行比较,并计算出它们之间的差距。这个差距就是损失函数的值。深度学习的目标是尽可能地减小损失函数的值。 ### 标准 损失函数应该满足以下标准: - 可微性:损失函数必须是可微的,这样才能使用反向传播算法来更新模型参数。 - 非负性:损失函数的值必须是非负的。 - 可区分性:损失函数应该能够区分不同的预测结果和实际结果。 ### 常见的损失函数 - 均方误差(Mean Squared Error,MSE):用于回归任务,计算预测值与实际值之间的平均差的平方。 - 交叉熵(Cross Entropy,CE):用于分类任务,计算预测概率分布与实际概率分布之间的差异。 - 对数损失(Log Loss):也用于分类任务,与交叉熵非常相似,但在某些情况下更适用。 - KL 散度(Kullback-Leibler Divergence,KL Divergence):用于度量两个概率分布之间的差异。 ### 注意事项 选择合适的损失函数取决于模型的任务和数据集。在选择损失函数时,应该考虑以下因素: - 模型的任务:是回归任务还是分类任务? - 数据集的特征:数据集是否平衡?数据集中是否存在异常值? ## 优化器 ### 意义 优化器用于调整模型参数以最小化损失函数。具体来说,它会计算损失函数的梯度,并使模型参数沿着梯度的反方向更新。 ### 标准 优化器应该满足以下标准: - 支持反向传播:优化器必须支持反向传播算法,这样才能计算损失函数的梯度。 - 收敛性:优化器应该能够收敛到全局最优解或局部最优解。 - 鲁棒性:优化器应该能够应对各种数据集和模型结构的变化。 ### 常见的优化器 - 随机梯度下降(Stochastic Gradient Descent,SGD):是最基本的优化器,通过反向传播算法计算损失函数的梯度,并将模型参数沿着梯度的反方向更新。 - 动量法(Momentum):在 SGD 的基础上增加了动量项,可以加速收敛。 - AdaGrad:根据参数的历史梯度来调整学习率,适用于稀疏数据集。 - RMSProp:适应性地调整学习率,可以加速收敛。 - Adam:结合了动量法和 RMSProp,可以更快地收敛。 ### 注意事项 选择合适的优化器取决于模型的任务和数据集。在选择优化器时,应该考虑以下因素: - 模型的任务:是回归任务还是分类任务? - 数据集的特征:数据集是否稀疏?数据集中是否存在异常值? - 训练集的大小:如果训练集很大,那么可以使用 SGD;如果训练集很小,那么可以使用 Adam。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值