在数学上,我们将满足以下性质的数学模型的物理现象:
- 解存在
- 解唯一
- 解连续依赖于初始边界条件(the solution’s behavior changes continuously with the initial conditions)
称适定问题。只要其中一个条件不满足,则称为不适定问题[1]
在数学、统计和计算机科学尤其是在机器学习和反演问题中,正则化通过引入额外的信息去解决不适定问题或者防止过拟合。
Tikhonov Regularization
Tikhonov正则化方法由Andrey Tikhonov命名,最常用来进行不适定问题的正则化。在统计学中,这种方法称为“岭回归”,在机器学习领域,被称为“weight decay”。在更多的独立研究中,同样称为Tikhonov-Miller方法、Phillips-Twomey方法、约束线性反演方法和线性正则化方法。Tikhonov正则化方法与非线性最小二乘问题的Levenberg-marquardt算法紧密相关的。
假设一个已知的矩阵A和向量b,我们希望求得一个向量x,如下表示:
Ax=b
求解x的标准方法为线性回归经典最小二乘。但是,如果没有x满足该等式或者不止一组x满足,这就意味着解不唯一,即该问题称为不适定问题(ill-posed problems)。像这样的案例中,经典最小二乘估计值会导致过拟合或者获得方程的欠定解。很多的现实世界中的现象都具有正向低通滤波的效果,其中x通过A映射到b。因此,在求解反演问题时,反演问题的解决方法就存在类似高通滤波器放大噪声的趋势(特征值/奇异值在反向映射中值很大而在正向映射中值很小)。经典最小二乘的方法的基本原理是:残差平方和最小,因此可表示为如下形式:
为了获得具有理想性质的特解,可以在此最小化中包含了正则化项:
在很多的案例中,直接将Tikhonov矩阵Γ作为一个确定的矩阵(Γ=αI
),这可以获得一个较小的范数解,这是著名的L2正则化。这种正则化改进了问题的条件,从而获得直接的数值解。这种解的显示表达为:
这种正则化的结果最终受到矩阵Γ的影响。如果矩阵Γ=0
的话,上述的正则化解就是经典最小二乘的解。
L2正则化方法除了在线性回归中使用外,也被应用与其他的领域:基于逻辑回归或支持向量机的分类和矩阵分解中。
Generalized Tikhonov regularization
对于x和数据误差的多元正态分布,可以通过应用变量转化使误差减小。同样地,可以获得以下x的最小目标方程:
其中,表示含权范数
(Mahalanobis distance)。基于贝叶斯解释,P是b的协方差矩阵的逆阵,x0是x的期望值,Q是x的协方差矩阵的逆阵。Tikhonov矩阵的因式分解式为:
(Cholesky 分解)并且认为其为白化滤波器。
这种广义问题的最优化解可以显示地表示为:
或者等价为:
Relation to singular-value decomposition and Wiener filter
当Γ=αI时,可以使用奇异值分解对最小二乘解进行分析。则Tikhonov正则化解可以奇异值分解为以下形式:
其中,D是一个对角阵:
最后,其维纳滤波器(Wiener Filter)的相关表达式为:
其中,表示为维纳权重,q为A矩阵的秩。
Determination of the Tikhonov factor
正则化参数a通常是未知的,经常需要根据实际问题使用特殊的方法进行确定。一种可能的方法依赖于下面描绘的贝叶斯解释(Bayesian interpretation)。其他的方法包含:偏差原理(discrepancy Principle)、交叉验证(cross-validation)、L曲线法(L_Curve Method)、限制性最大似然估计(restricted maximum likelihood)和无偏预测风险估计(Unbiased predictive risk estimator)。Grace Wahba证明了这种最优参数,去一法交叉验证最小(leave-one-out cross-validation):
其中RSS表示残差平方和,t表示自由度。
使用之前的SVD方法,我们可以讲话上述的表达式:
文章 参考:
https://en.wikipedia.org/wiki/Regularization_(mathemfanyanwenatics)