NN模型设置--L1/L2正则化

正则化的理解

  规则化函数Ω有多重选择,不同的选择效果也不同,不过一般是模型复杂度的单调递增函数——模型越复杂,规则化值越大。
在这里插入图片描述

  正则化含义中包含了权重的先验知识,是一种对loss的惩罚项(regularization term that penalizes parameters)。
  L2正则化是权重符合正态分布的先验;L1则是权重符合拉普拉斯分布的先验(对参数引入 拉普拉斯先验 等价于 L1正则化)。
  正则化参数等价于对参数引入先验分布,使得 模型复杂度 变小(缩小解空间),对于噪声以及 outliers 的鲁棒性增强(泛化能力)。整个最优化问题从贝叶斯观点来看是一种贝叶斯最大后验估计,其中 正则化项 对应后验估计中的 先验信息,损失函数对应后验估计中的似然函数,两者的乘积即对应贝叶斯最大后验估计的形式。

正则化的超参数

  这其中除了损失函数,正则项以外,还包括参数λ,称为hyper-parameters​(超参)。该参数用于平衡损失函数和规则项的(还有一种理解是“用于权衡bias和variance”),λ越大,则正则项的作用越重要,就是说相比于拟合训练数据,更希望模型能够满足约束条件Ω(w)的特性,反之亦然。

  举个极端的例子,如果λ=0,规则化项不起作用,就是希望模型能够最小化损失函数项,当模型拟合了所有训练数据时损失函数项最小,但这样得到的模型对于新的数据泛化能力就非常差,产生了过拟合。​
由此可知,需要协调λ的值,使得模型即具有较小的训练误差,又具有很好的泛化能力。最常用的方法是交叉验证,实验不同的λ值。

L1和L2的比较

  1)L1 正则化向目标函数添加正则化项,以减少参数的值总和;
  2)L2 正则化中,添加正则化项的目的在于减少参数平方的总和。
  根据之前的研究,L1 正则化中的很多参数向量是稀疏向量,因为很多模型导致参数趋近于 0,因此它常用于特征选择设置中。机器学习中最常用的正则化方法是对权重施加 L2 范数约束。
  对于 L2 范数来说,权重会被约束在一个 L2 范数的球体中,而对于 L1 范数,权重将被限制在 L1 所确定的范围内。

  我们常说的 “small n, large p problem”。(我们一般用 n 表示数据点的个数,用 p 表示变量的个数 ,即数据维度。当 的时候,不做任何其他假设或者限制的话,学习问题基本上是没法进行的。因为如果用上所有变量的话, p 越大,通常会导致模型越复杂,但是反过来 n 又很小,于是就会出现很严重的 overfitting 问题。
  假设我们的预测结果与两个特征相关,L2正则倾向于综合两者的影响,给影响大的特征赋予高的权重;而L1正则倾向于选择影响较大的参数,而舍弃掉影响较小的那个。实际应用中 L2正则表现往往会优于 L1正则,但 L1正则会大大降低我们的计算量。

  既然 L1和 L2正则各自都有自己的优势,那我们能不能将他们 combine 起来?
  可以,事实上,大牛早就这么玩过了。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
要使用PyTorch实现L1L2正则化,可以通过在损失函数添加相应的正则化项来实现。下面是一个简单的示例: ```python import torch import torch.nn as nn import torch.optim as optim # 定义模型 class MyModel(nn.Module): def __init__(self): super(MyModel, self).__init__() self.linear = nn.Linear(10, 1) def forward(self, x): return self.linear(x) model = MyModel() # 定义损失函数和优化器 criterion = nn.MSELoss() optimizer = optim.SGD(model.parameters(), lr=0.01) # 定义正则化权重 l1_lambda = 0.01 l2_lambda = 0.01 # 训练循环 for epoch in range(num_epochs): for inputs, targets in data_loader: optimizer.zero_grad() outputs = model(inputs) loss = criterion(outputs, targets) # 添加L1正则化 l1_reg = torch.tensor(0.) for param in model.parameters(): l1_reg += torch.norm(param, 1) loss += l1_lambda * l1_reg # 添加L2正则化 l2_reg = torch.tensor(0.) for param in model.parameters(): l2_reg += torch.norm(param, 2) loss += l2_lambda * l2_reg loss.backward() optimizer.step() ``` 在上述代码,我们定义了一个`MyModel`类来表示我们的模型。然后,我们使用`nn.MSELoss()`作为损失函数,并使用`optim.SGD`作为优化器。在训练循环,我们通过遍历模型的参数并计算其L1L2范数来计算正则化项。然后将正则化项加到损失函数,通过调整`l1_lambda`和`l2_lambda`参数来控制正则化的强度。最后,我们进行反向传播和参数更新以完成训练。 请注意,这只是一个简单的示例,实际应用可能还会有其他细节需要考虑,如权重衰减(weight decay)等。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值