背景:最大似然法学习的简单的线性回归模型的第二个缺点——
更正假设:对观测数据x进行非线性变换,使得满足如下(f[·]代表一个非线性变换)——
重新建模、学习和推理:
最大似然方法:
建模:
构建关于全局状态的后验函数(似然函数)。
原始的模型:
令Z←X,
学习:
最大化上述似然函数,令偏导等于0,求得参数关于已知数据的表达式。
原模型的学习结果:
令Z←X,
推理:
将新观测数据和预测分布代入已求得分布参数的模型中,计算关于预测分布的后验概率。
贝叶斯方法:
引入关于分布参数的先验,通过贝叶斯法则、应用正态分布乘积的自共轭性质,计算分布参数的后验,以分布参数的后验为权重对状态的后验进行加权求和,得到最终的状态概率。
原模型的推理结果:
令Z←X,
非线性变换的选择:
选择一:
选择二(通过径向基函数计算新向量z,这是一个高斯函数,用来表示任何球面对称函数,有两组参数,α是函数的中心,λ是控制宽度的缩放因子):
选择三(通过反正切函数计算新向量z,同样有两组参数,α决定反正切函数的水平偏移值,λ控制函数变换的速度):
对原观测数据x的每一维经过上述非线性变换后得到一个新的向量z,再对向量z的每一维以向量φ为权重加权,接着求加权和,这个加权和作为状态的后验分布的均值(最大可能性位置),方差不变。
线性与非线性变换的结果比较:
不难发现,非线性的假设更符合实际,贝叶斯的方法比最大似然法置信度更低(前者的概率分布更扁平和即不确定性更高 )。
提高计算效率的方法:
核技巧:
观察最大似然法的最终表达式①和贝叶斯方法的最终表达式②,均与计算内积项z^Tz有关,然而,当变换后的空间是高维空间,显示计算z=f[x]的乘积,成本太大了。
因此,可以用核替换的方法,直接定义核函数k[·]=f[·]^T f[·],不再显示计算变换向量z,将数据投影到高危甚至无限维的空间中。
三种有效核函数的例子(有效是利用Mercer定理定义的,是说核的参数在一个可测空间即非无限维吧时,核函数有效,并且核函数是半正定的):
- 线性核:
- p阶多项式核:
- 径向基(RBF)或称高斯核:
另外,有效核的和与积是半正定的,因此它们也是有效核。
高斯(核)过程回归:
未使用核技巧的原表达式:
使用高斯核的表达式(令 K[x,x]←z^T z):
K[X,X]表示点积矩阵,k[x_i,x_j]是其元素。
核函数的参数通过最大化边缘似然来求(高斯核只有一个参数λ要求,它决定宽度和平滑性):
λ太大会太平滑,接近线性;λ太小,太过曲折,观测数据的状态太分散,新数据下模型无法成功在样本之间插值,距离样本均值太远的话,置信度太低;λ取值适中,则是最大似然的长度缩放参数的回归,不太平滑也不太分散。
【注】这些学习笔记涉及到一些公式和图片,部分直接摘抄至 Dr Simon J D Prince著作的 Computer Vision Models Learning And Inference一书。