正则化的本质是一种回归的形式,它将系数估计朝零的方向进行约束、调整或缩小,它可以在学习过程中降低模型复杂度和不稳定程度,从而避免过拟合的危险。
范数是衡量某个向量空间(或矩阵)中的每个向量以长度或大小。范数的一般化定义:对实数p>=1, 范数定义如下:
L1范数
当 p=1时,是L1范数,其表示某个向量中所有元素绝对值的和
L2范数
当p=2时,是L2范数, 表示某个向量中所有元素平方和再开根, 也就是欧几里得距离公式。
一个简单的线性回归关系如下式。其中 Y 代表学习关系,β 代表对不同变量或预测因子 X 的系数估计。
Y ≈ β0 + β1X1 + β2X2 + …+ βpXp
拟合过程涉及损失函数,称为残差平方和(RSS)。系数选择要使得它们能最小化损失函数。
这个式子可以根据你的训练数据调整系数。但如果训练数据中存在噪声,则估计的系数就不能很好地泛化到未来数据中。这正是正则化要解决的问题