权重衰减(Weight Decay)是一种正则化技术,它包括了L1正则化和L2正则化两种情况。
-
L1 正则化:
在L1正则化中,惩罚项是权重的绝对值之和。它的数学形式是在损失函数中加入了权重的L1范数:
[L’(\theta) = L(\theta) + \lambda \sum_{i} |w_i|]
其中:
- (L’(\theta)) 是带有L1正则化的新损失函数。
- (L(\theta)) 是原始的损失函数。
- (\lambda) 是L1正则化的超参数,控制了L1惩罚项的强度。
- (w_i) 是网络中的权重。
L1正则化倾向于将一些权重稀疏化,即使得一部分权重趋向于零,从而使模型变得更加稀疏和简单,有助于特征选择。
-
L2 正则化:
在L2正则化中,惩罚项是权重的平方和的平方根。它的数学形式是在损失函数中加入了权重的L2范数:
[L’(\theta) = L(\theta) + \lambda \sqrt{\sum_{i} w_i^2}]
其中:
- (L’(\theta)) 是带有L2正则化的新损失函数。
- (L(\theta)) 是原始的损失函数。
- (\lambda) 是L2正则化的超参数,控制了L2惩罚项的强度。
- (w_i) 是网络中的权重。
L2正则化倾向于使权重变得更加均匀,避免过度依赖少数几个特征。
总的来说,权重衰减包括了L1和L2正则化两种情况,它们都是通过在损失函数中添加一个惩罚项来减小模型的复杂度,防止过拟合。 L1正则化倾向于稀疏化权重,而L2正则化倾向于使权重更加均匀。