【机器学习算法模型】1. SVR模型推导

eddyleung_zs

已于 2022-01-26 12:00:04 修改

阅读量1.2w

点赞数 9

文章标签：机器学习算法支持向量机

于 2022-01-24 14:29:04 首次发布

本文链接：https://blog.csdn.net/weixin_45387152/article/details/122666562

版权

【机器学习算法模型推导】1. SVR算法介绍与推导

文章目录

【机器学习算法模型推导】1. SVR算法介绍与推导
一、SVR算法

一、SVR算法

SVR做为SVM的分支从而被提出。SVM一般用于二分类问题，而SVR一般应用于数据的拟合。

1.SVR简介

无论SVM还是SVR，都需要建立一个超平面。SVM的目标是令超平面与最近的样本点的距离最大，实现通过超平面分类的目的；而SVR的目标是要使得超平面与最远的样本点的距离最小，从而可以通过利用超平面对数据进行拟合。
请添加图片描述

2.SVR数学模型

SVR在线性函数两侧制造了一个“间隔带”，对于所有落入到间隔带内的样本，都不计算损失；只有间隔带之外的，才计入损失函数。之后再通过最小化间隔带的宽度与总损失来最优化模型。
由于模型需要放弃一些边缘的点，用于最小化间隔带，
所以引入了松弛变量 $\xi_i$ 和 $\xi_i^*$ （松弛变量有两个符号，SVM只有1个符号），代表上图上边缘点和下边缘点与中间实线的距离（y轴投影距离而不是欧式距离，直接计算点与点在实线上的投影的y轴上的差即可。）：

2.1 SVR目标函数

$\mathop{min}\limits_{\omega, b}\frac{1}{2}\parallel\omega\parallel^2 + C\sum_{i=1}^{l}(\xi_i + \xi_i^*)$

$s.t.\left\{ \begin{array}{l} y_i-\omega x-b \le \epsilon + \xi_i \\ \omega x + b - y_i \le \epsilon + \xi_i^* \\ \xi_i,\xi_i^* \qquad \quad \ge 0 \end{array} \right.$

其中， $\xi_i$ 和 $\xi_i^*$ 的取值为：

$\left\{ \begin{array}{l} \xi_i=y_i-(\omega x + b +\epsilon), y_i > \omega x + b + \epsilon\\ \xi_i=0, \qquad \qquad \qquad \quad otherwise \end{array} \right.$

$\left\{ \begin{array}{l} \xi_i^*=(\omega x + b -\epsilon)-y_i, y_i < \omega x + b - \epsilon\\ \xi_i^*=0, \qquad \qquad \qquad \quad otherwise \end{array} \right.$

2.2 为了最小化目标函数，根据约束条件，构造拉格朗日函数

$\begin{array}{l} L=\frac{1}{2}\parallel\omega\parallel^2 + C\sum_{i=1}^{l}(\xi_i + \xi_i^*) \\ \qquad - \sum\limits_{i=1}^l \alpha_i(\epsilon + \xi_i - y_i + \omega x + b) \\ \qquad - \sum\limits_{i=1}^l \alpha_i^*(\epsilon + \xi_i^* + y_i - \omega x - b) \\ \qquad - \sum\limits_{i=1}^l(\eta_i\xi_i + \eta_i^*\xi_i^*)\\ s.t. \quad\alpha_i, \alpha_i^*, \eta_i, \eta_i^* \ge 0 \end{array}$

原问题可以化为：
$\mathop{min}\limits_{\omega, b}\mathop{max}\limits_{\alpha_i^{(*)}, \eta_i^{(*)}}L(\omega, b, \xi_i,\xi_i^*, \alpha_i, \alpha_i^*, \eta_i, \eta_i^*)$

2.3 原问题的对偶问题

$\mathop{max}\limits_{\alpha_i^{(*)}, \eta_i^{(*)}}\mathop{min}\limits_{\omega, b}L(\omega, b, \xi_i,\xi_i^*, \alpha_i, \alpha_i^*,\eta_i, \eta_i^*)$

2.4 分别对 $\omega,b,\xi_i,\xi_i^*$ 求偏导，并令偏导为0

$\left\{ \begin{array}{l} \frac{\partial L}{\partial \omega} = \omega - \sum\limits_{i=1}^{l}(\alpha_i^* - \alpha_i)x_i = 0\\ \frac{\partial L}{\partial b} =\sum\limits_{i=1}^{l}(\alpha_i^* - \alpha_i) = 0\\ \frac{\partial L}{\partial \xi_i}=C - \alpha_i - \eta_i\\ \\ \frac{\partial L}{\partial \xi_i^*} = C - \alpha_i^* - \eta_i^* \end{array} \right.$

2.5 用SMO算法求解SVR

使用SMO算法前，还需将 $\alpha_i, \alpha_i^*$ 转化为一个参数，因为SMO算法针对的是任意样本 $x_i$ 只对应一个参数 $\alpha_i$ 的情况。

过程采用拉格朗日对偶法，对偶问题有解的充要条件是满足KKT条件，对于SVR的对偶问题，其KKT条件如下：
$\left\{ \begin{array}{l} \alpha_i(\epsilon + \xi_i - y_i + \omega x + b) = 0\\ \alpha_i^*(\epsilon + \xi_i + y_i - \omega x - b) = 0\\ (C-\alpha_i)\xi_i = 0\\ (C-\alpha_i^*)\xi_i^* = 0\\ \alpha_i\alpha_i^* = 0\\ \xi_i\xi_i^* = 0 \end{array} \right.$

设 $\lambda_i = \alpha_i - \alpha_i^*$ 。由KKT条件， $\alpha_i,\alpha_i^*$ 至少有一个为0。所以 $|\lambda_i| = \alpha_i + \alpha_i^*$ 。代入对偶问题，则有(先用求导结果替换 $\omega$ )：
$\begin{array}{l} \mathop{min}\limits_{\lambda}[\sum\limits_{i=1}^{l}y_i\lambda_i+ \epsilon|\lambda_i| + \frac{1}{2}\sum\limits_{i=1}^{l}\sum\limits_{j=1}^{l}\lambda_i\lambda_j x_i^Tx_i] \\ s.t.\left\{\begin{array}{l} \sum\limits_{i=1}^{l}\lambda_i = 0\\ -C \le \lambda_i \le C \end{array} \right. \end{array}$
最后再参考SMO算法，求出回归模型系数 $\omega, b$