【西蒙计算机视觉学习笔记】非线性回归模型

最新推荐文章于 2024-07-09 12:36:00 发布

woshirenchengaji

最新推荐文章于 2024-07-09 12:36:00 发布

阅读量762

点赞数

分类专栏：计算机视觉文章标签：机器学习概率论计算机视觉

本文链接：https://blog.csdn.net/woshirenchengaji/article/details/120700112

版权

计算机视觉专栏收录该内容

3 篇文章 0 订阅

订阅专栏

本文探讨了最大似然法学习简单线性回归模型的局限性，提出了通过非线性变换改进模型的思路。介绍了三种非线性变换方法：指数变换、径向基函数和反正切函数，并对比了线性与非线性变换的效果。此外，还阐述了如何利用核技巧提高计算效率，如线性核、多项式核和高斯核，并讨论了核参数的选择对模型平滑度的影响。最后，提到了高斯过程回归在非线性建模中的应用。

摘要由CSDN通过智能技术生成

背景：最大似然法学习的简单的线性回归模型的第二个缺点——

更正假设：对观测数据x进行非线性变换，使得满足如下（f[·]代表一个非线性变换）——

重新建模、学习和推理：

最大似然方法：

建模：

构建关于全局状态的后验函数（似然函数）。

原始的模型：

令Z←X，

学习：

最大化上述似然函数，令偏导等于0，求得参数关于已知数据的表达式。

原模型的学习结果：

令Z←X，

推理：

将新观测数据和预测分布代入已求得分布参数的模型中，计算关于预测分布的后验概率。

贝叶斯方法：

引入关于分布参数的先验，通过贝叶斯法则、应用正态分布乘积的自共轭性质，计算分布参数的后验，以分布参数的后验为权重对状态的后验进行加权求和，得到最终的状态概率。

原模型的推理结果：

$Pr(w^*|x^*,X,w) \\ =Norm_w^*[\dfrac{\sigma_p^2}{\sigma^2}x^{*T}Xw-\dfrac{\sigma_p^2}{\sigma^2}x^{*T}X(X^TX+\dfrac{\sigma^2}{\sigma_p^2}\mathrm{I})^{-1}X^TXw, \\ \sigma_p^2x^{*T}x^*-\sigma_p^2x^{*T}X(X^TX+\dfrac{\sigma^2}{\sigma_p^2}\mathrm{I})^{-1}X^Tx^*+\sigma^2] , \qquad \sigma^2 \leftarrow \hat{\sigma}^2$

令Z←X，

非线性变换的选择：

选择一：

选择二（通过径向基函数计算新向量z，这是一个高斯函数，用来表示任何球面对称函数，有两组参数，α是函数的中心，λ是控制宽度的缩放因子）：

选择三（通过反正切函数计算新向量z，同样有两组参数，α决定反正切函数的水平偏移值，λ控制函数变换的速度）：

$z_i = \begin{bmatrix} 1 \\ arctan[\lambda x_i-\alpha_1] \\ arctan[\lambda x_i-\alpha_2] \\ arctan[\lambda x_i-\alpha_3] \\ arctan[\lambda x_i-\alpha_4] \\ arctan[\lambda x_i-\alpha_5] \\ arctan[\lambda x_i-\alpha_6] \\ \end{bmatrix}$

对原观测数据x的每一维经过上述非线性变换后得到一个新的向量z，再对向量z的每一维以向量φ为权重加权，接着求加权和，这个加权和作为状态的后验分布的均值（最大可能性位置），方差不变。

线性与非线性变换的结果比较：

不难发现，非线性的假设更符合实际，贝叶斯的方法比最大似然法置信度更低（前者的概率分布更扁平和即不确定性更高）。

提高计算效率的方法：

核技巧：

观察最大似然法的最终表达式①和贝叶斯方法的最终表达式②，均与计算内积项z^Tz有关，然而，当变换后的空间是高维空间，显示计算z=f[x]的乘积，成本太大了。

因此，可以用核替换的方法，直接定义核函数k[·]=f[·]^T f[·]，不再显示计算变换向量z，将数据投影到高危甚至无限维的空间中。

三种有效核函数的例子（有效是利用Mercer定理定义的，是说核的参数在一个可测空间即非无限维吧时，核函数有效，并且核函数是半正定的）：

线性核：

p阶多项式核：

径向基（RBF）或称高斯核：

另外，有效核的和与积是半正定的，因此它们也是有效核。

高斯（核）过程回归：

未使用核技巧的原表达式：

使用高斯核的表达式（令 K[x,x]←z^T z）：

K[X,X]表示点积矩阵，k[x_i,x_j]是其元素。

核函数的参数通过最大化边缘似然来求（高斯核只有一个参数λ要求，它决定宽度和平滑性）：

λ太大会太平滑，接近线性；λ太小，太过曲折，观测数据的状态太分散，新数据下模型无法成功在样本之间插值，距离样本均值太远的话，置信度太低；λ取值适中，则是最大似然的长度缩放参数的回归，不太平滑也不太分散。

【注】这些学习笔记涉及到一些公式和图片，部分直接摘抄至 Dr Simon J D Prince著作的 Computer Vision Models Learning And Inference一书。

woshirenchengaji

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
【西蒙计算机视觉学习笔记】非线性回归模型

背景：最大似然法学习的简单的线性回归模型的第二个缺点——更正假设：对观测数据x进行非线性变换，使得满足如下（f[·]代表一个非线性变换）——重新建模、学习和推理：最大似然方法：建模：构建关于全局状态的后验函数（似然函数）。原始的模型：令Z←X，学习：最大化上述似然函数，令偏导等于0，求得参数关于已知数据的表达式。原模型的学习结果：令Z←X，推理：将新观测数据和预测分布代入已求得分布参数的模型中，计算关于预测分布的后验概...
复制链接

扫一扫