相关向量机(RVM)

本篇文章翻译至伦敦大学学院的一位老师写的对于那些对机器学习经验最少的人来说尽可能地容易理解RVM。
该文档已分为两个主要部分。首先介绍了需要解决的问题,即在某些超参数上最大化回归目标值的后验概率。然后继续进行此操作所需的方程式。除了上述假定知识的领域外,每个数学步骤都经过了处理。因此希望该解释中的任何细节都没有歧义,尽管这确实使描述有些麻烦。因此,第二部分从算法的角度解释了实际应用该技术所需的迭代。

下面是文章中的约定:

为了使该描述尽可能地明确(在数学意义上),值得介绍一些将要使用的符号:
P(A | B,C)是给定B和C的A的概率。请注意,使用这种表示法,参数的不同表示不会改变该概率,例如P(A | B)≡P(A | B-1)。此外,为了简单起见,概率表示法中的某些元素有时在它们不相关的情况下将被省略,例如。 P(A | B)≡P(A | B,C,D等)。
X〜N(µ,σ2)用于表示X正态分布,均值μ,方差σ2。
粗体用于表示向量和矩阵。

线性回归问题通常基于发现参数向量w和偏移量c的情况,因此我们可以为未知输入x(x∈<M)预测y:
在这里插入图片描述
实际上,我们通常将偏移量c合并到w中。 如果x和y之间存在非线性关系,则可以使用基函数:其中x →φ(x)是非线性映射(即基函数)。
在这里插入图片描述
尝试从我们的训练示例中计算w时,我们假设每个目标ti代表真实的模型yi,但是加上了噪声i:
在这里插入图片描述
假设i是来自高斯噪声过程的独立样本,均值为零且方差为σ2,即i〜N(0,σ2)∀i。 这意味着:
在这里插入图片描述
同时查看N个训练点,以使向量t代表所有单个训练点ti,并构造N×M设计矩阵Φ,使第i行代表向量φ(xi),我们具有:
在这里插入图片描述
当试图学习x和y之间的关系时,我们希望限制复杂度并因此限制权重w的增长,并通过在w上定义明确的先验概率分布来做到这一点。 通过使用w之前的零均值高斯函数,可以编码出我们偏爱的平滑函数,因此不太复杂。
在这里插入图片描述
这里我们用αi描述了每个Wi的逆方差(即精度)。 如果我们再次同时查看所有N个点,那么向量α中的第i个元素表示αi,则我们有:
在这里插入图片描述
这意味着每个权重都有一个单独的超参数αi,从而改变了先前的强度。给定数据,所有未知参数的后验概率表示为P(w,α,σ2| t)。 我们正在尝试找出w,α和σ2,它们使该后验概率最大化。 我们可以分解后验:
在这里插入图片描述
在这里插入图片描述
均值m和协方差Σ由下式给出:
在这里插入图片描述
在这里插入图片描述
有关条件高斯分布的(1.2),(1.3)和(1.4)的计算方法不在本文讨论范围之内。
为了评估m和Σ,我们需要找到使(1.1)的第二部分最大化的超参数(α和β),我们对其进行分解:
在这里插入图片描述
我们将假定统一的超优先级,因此忽略P(α)和P(σ2)。 现在,我们的问题是最大化证据:
在这里插入图片描述
看方程的第一部分:
在这里插入图片描述
然后是第二个(其中M是x的维数):
在这里插入图片描述
将(1.6)和(1.7)替换为(1.5):
在这里插入图片描述
为了简化(1.8),我们创建一个定义来表示被积数:
在这里插入图片描述
This means that:
在这里插入图片描述
扩展(1.9),我们得到:
在这里插入图片描述
代入(1.4)然后使用I = Σ−1Σ:
在这里插入图片描述
代入(1.3):
在这里插入图片描述
在这里插入图片描述
我们从(1.8)开始的被积变为:
在这里插入图片描述
将其替换为后,我们得到:
在这里插入图片描述
这就是我们的边际可能性,并取对数,这给我们的对数边际可能性:
在这里插入图片描述
我们需要相对于α和β最大化此方程,这一过程称为证据近似程序
为了使对数边际可能性最大化,我们首先针对αi取(1.10)的导数并将其设置为零:
在这里插入图片描述
用γi= 1-αiΣii代替我们对最大(1.10)的αi的递归定义,可以更优雅地表示为:
在这里插入图片描述
现在,我们需要对β进行微分(1.10)并将这些导数设置为零:
在这里插入图片描述
为了解决这个问题,我们首先简化跟踪运算符Tr [•]的参数:
在这里插入图片描述
把这个代回1.11
在这里插入图片描述
然后,通过将α和β设置为初始值,从(1.3)和(1.4)中找到m和Σ的值,并使用这些值计算α和β的新估计值,并反复进行迭代,反复找到使我们的边际可能性最大化的αi和β。直到满足收敛标准为止。
然后,我们剩下的α和β值将使我们的边际可能性最大化,并且我们可以使用它来评估对于新输入x0的t上的预测分布:
在这里插入图片描述
这意味着我们对t的估计是上述分布mTφ(x0)的平均值。
我们对预测的信心由该分布σ2(x0)的方差确定,该方差由下式给出:
在这里插入图片描述
在执行上述近似程序时,许多αi趋于无穷大。 这对(1.2)中相应权重的后验分布的方差Σ和均值m有影响:
在这里插入图片描述
这意味着与该αi有关的每个wi将分布为αi〜N(0,0),即等于零。 因此,每次迭代都应从总体设计矩阵Φ中删除相应的基函数φ(xi)。
修剪后与其余非零权重对应的xi被称为相关性向量,类似于SVM的支持向量。

RVM过程是一个迭代过程,涉及反复重新估计α和β,直到满足停止条件为止。 步骤如下:
1.为数据集和相关参数选择合适的内核函数。 使用该内核函数创建设计矩阵Φ。
2.为α和β建立合适的收敛标准,例如 一个迭代的α估计与下一个δ= Pi = 1αn+ 1 i-αni之间的变化δThresh的阈值,以便当δ<δThresh时停止重新估计。
3.建立一个阈值αThresh,假设阈值αi在达到阈值时趋于无穷大。
4.选择α和β的起始值。
5.计算m =βΣΦTt和Σ=(A +βΦTΦ)-1。
6.更新
和
在这里插入图片描述
7.修剪αi和相应的基函数,其中αi>αThresh。
8.重复(5)至(7),直到满足收敛标准。
由上述过程得出的超参数值α和β是使我们的边际可能性最大化的值,因此是在对新输入x0进行目标值t的新估计时使用的那些参数:
在这里插入图片描述
与我们对该估计的信心有关的方差为:
在这里插入图片描述
以上是我在学习RVM中发现的一篇不错的文章,搬运至此。

发布了1 篇原创文章 · 获赞 0 · 访问量 6
展开阅读全文

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 数字20 设计师: CSDN官方博客

分享到微信朋友圈

×

扫一扫,手机浏览