Relevance Vector Machine (RVM)简介

最新推荐文章于 2025-03-06 17:38:26 发布

wolenski

最新推荐文章于 2025-03-06 17:38:26 发布

阅读量1.3w

点赞数 2

分类专栏：机器学习

机器学习专栏收录该内容

29 篇文章

订阅专栏

http://hi.baidu.com/tengteng2007/item/a6d6c53df998175a81f1a7c7

推荐相关向量机（Relevance vector machine,简称RVM）是Tipping在2001年在贝叶斯框架的基础上提出的，它有着与支持向量机（Support vector machine,简称SVM）一样的函数形式，与SVM一样基于核函数映射将低维空间非线性问题转化为高维空间的线性问题。

一、RVM与SVM的区别：

1. SVM 基于结构风险最小化原则构建学习机，RVM基于贝叶斯框架构建学习机
2. 与SVM相比，RVM不仅获得二值输出，而且获得概率输出
3. 在核函数的选择上，不受梅西定理的限制，可以构建任意的核函数
4. 不需对惩罚因子做出设置。在SVM中惩罚因子是平衡经验风险和置信区间的一个常数，实验结果对该数据十分敏感，设置不当会引起过学习等问题。但是在RVM中参数自动赋值。
5. 与SVM相比，RVM更稀疏，从而测试时间更短，更适用于在线检测。众所周知，SVM的支持向量的个数随着训练样本的增大成线性增长，当训练样本很大的时候，显然是不合适的。虽然RVM的相关向量也随着训练样本的增加而增加，但是增长速度相对SVM却慢了很多。
6. 学习机有一个很重要的能力是泛化能力，也就是对于没有训练过的样本的测试能力。文章表明，RVM的泛化能力好于SVM。
7. 无论是在回归问题上还是分类问题上，RVM的准确率都不亚于SVM。
8. 但是RVM训练时间长

二、RVM原理步骤
RVM通过最大化后验概率（MAP）求解相关向量的权重。对于给定的训练样本集{tn,xn}，类似于SVM , RVM 的模型输出定义为
y(x;w)=∑Ni=1wiK(X,Xi)+w0
其中wi为权重， K(X,Xi)为核函。因此对于, tn=y(xn,w)+εn,假设噪声εn 服从均值为0 , 方差为σ2 的高斯分布,则p ( tn | ω,σ2 ) = N ( y ( xi ,ωi ) ,σ2 ) ,设tn 独立同分布,则整个训练样本的似然函数可以表示出来。对w 与σ2的求解如果直接使用最大似然法，结果通常使w 中的元素大部分都不是0，从而导致过学习。在RVM 中我们想要避免这个现像，因此我们为w 加上先决条件：它们的机率分布是落在0 周围的正态分布: p(wi|αi) = N(wi|0, α?1i ),于是对w的求解转化为对α的求解，当α趋于无穷大的时候，w趋于0.

RVM的步骤可以归结为下面几步：
1. 选择适当的核函数，将特征向量映射到高维空间。虽然理论上讲RVM可以使用任意的核函数，但是在很多应用问题中，大部分人还是选择了常用的几种核函数，RBF核函数，Laplace核函数，多项式核函数等。尤其以高斯核函数应用最为广泛。可能于高斯和核函数的非线性有关。选择高斯核函数最重要的是带宽参数的选择，带宽过小，则导致过学习，带宽过大，又导致过平滑，都会引起分类或回归能力的下降
2. 初始化α，σ2。在RVM中α，σ2是通过迭代求解的，所以需要初始化。初始化对结果影响不大。
3. 迭代求解最优的权重分布。
4. 预测新数据。

三、应用
1 分类
在人脸面部表情识别，人脸检测，文本识别，图形选择，垃圾邮件识别中都有不俗表现
2.回归
主要应用在物体的跟踪，3D姿态估计，3D模型恢复

相关向量机采取是与支持向量机相同的函数形式稀疏概率模型，对未知函数进行预测或分类。其训练是在贝叶斯框架下进行的，与SVM相比，不需要估计正则化参数，其核函数也不需要满足Mercer条件，需要更少的相关向量，训练时间长，测试时间短。
优点：
   (1) 不仅仅输出预测目标量的点估计值，还可以输出预测值的分布。
   (2) 使用更少数量的支持向量，从而显著减少输出目标量预测值的计算时间。
   (3) RVM不需要估计过多的参数。
   (4) RVM对是否满足Mercer定理的核函数没有限制，适应性更好，更适合在线预测。

更多内容可见A Tutorial on Relevance Vector Machine。