支持向量机-Support Vector Machine

最新推荐文章于 2024-07-11 18:30:49 发布

dqhl1990

最新推荐文章于 2024-07-11 18:30:49 发布

阅读量294

点赞数

分类专栏：算法机器学习文章标签：支持向量机最大间隔超平面分类器最优化之对偶问题求解以及SMO算法核函数处理Outliers

本文链接：https://blog.csdn.net/zfcjhdq/article/details/84304065

版权

算法同时被 2 个专栏收录

34 篇文章 4 订阅

订阅专栏

机器学习

2 篇文章 0 订阅

订阅专栏

支持向量机-Support Vector Machine

将在SVM之前

初窥SVM，没想到其涉及了诸多最优化问题的内容，特此在理解SVM的同时，整理了会用到的最优化相关知识，都在这里了。

关于SVM的讲解，我看到了两种方法。一种是网上最多的最优超平面方法求解；另一种是Andrew Ng在Coursera上通过逻辑回归延伸出来的方法。这里我先整理根据网上看到的方法。

1. 什么是超平面？

维基百科上讲：在几何学中，一个超平面，是一个比它所在环境空间维度小1的子空间(余维度为1)。例如，三维空间的超平面是一个二维平面，二维空间的超平面是一个一维线。

对于 $n$ 维空间，其内的超平面为：
$w_1x_1 + w_2x_2+\cdots + w_nx_n = b\tag{1.1}$ 定义的子集 $X$ ，其中 $w_1,w_2,\dots,w_n$ 为不全为0的常数，并且为该超平面的法向量。

超平面将其所在的空间分成了两个部分，分别对应的是：

$w_1x_1 + w_2x_2+\cdots + w_nx_n > b\\ and\\ w_1x_1 + w_2x_2+\cdots + w_nx_n < b$

用向量形式表示超平面公式为：
$x=(x_1,x_2,\dots,x_n)^T\\ w=(w_1,w_2,\dots,w_n)^T\\ \ \\ w^Tx +b = 0\tag{1.2}$

其同样可以用不等式将所在的空间分成两部分：
$w^Tx +b > 0\\and\\w^Tx +b < 0$
以二维空间为例，如图能直观地看出超平面（线）将二维平面分成了两部分：

在这里插入图片描述

问题定义

在进行推导之前，我们想对问题进行定义。假设给定一个特征空间上的训练数据集
$\{(x_1,y_x),(x_2,y_2),\dots,(x_n,y_n)\}$ 其中， $x_i\in {\Bbb R}^n,y_i \in \{+1,-1\}, i = 1,2,\dots,n$ 。
我们的问题就是要找到空间中的一个超平面，能够最优的将不同类别的样本区分开来。

2. 函数间隔（Functional Margin）与几何间隔（Geometrical Margin）

函数间隔

当在一个超平面 $w^Tx+b=0$ 确定的情况下，我们可以看到 $w^Tx_i+b|$ 能够反映点 $x_i$ 到超平面的远近（但不是实际的欧几里得距离），通过观察 $w^Tx_i+b$ 和类标记 $y_i$ 符号是否一致，可以判断分类结果是否正确。因此，同时考虑 $w^Tx_i+b$ 和 $y_i$ ，即 $y_i(w^Tx_i +b)$ 能到的一种对于分类结果正确与否的度量（可信度）。

所以，我们定义间隔函数为：
$\hat{\gamma_i} = y_i(w^Tx_i +b)\tag{2.1}$ 表示训练样本 $x_i,y_i)$ 被分类正确的可信度。当 $w^Tx_i+b$ 和类标记 $y_i$ 符号一致时，则 $\hat{\gamma}$ 为正，若 $w^Tx_i+b|$ 越大，则 $\hat{\gamma}$ 越大，证明分类超平面对于该训练样本很好用；相反的，如果 $w^Tx_i+b$ 和类标记 $y_i$ 符号不一致，则 $w^Tx_i+b|$ 越大，则 $\hat{\gamma}$ 越小，证明超平面对于该样本不好用。

所以为了评估超平面对于全部样本的分类效果，我们可以用下式：
$\hat{\gamma} = \min_{i=1,2,\dots,n} \hat{\gamma_i}\tag{2.2}$ 来进行评判。

然而， $\hat{\gamma_i}$ 及 $\hat{\gamma}$ 并不是对应点 $x_i$ 到超平面的真实距离（欧几里得距离）。所以我们下面引入几何距离的概念。

几何距离

为了推导几何距离的计算公式，我们先假设我们的超平面为：
$w^Tx + b =0$
对于超平面上面任意一个点 $x_j$ ，我们可以得到：
$w^Tx_j +b=0$ 并且该平面的法向量为 $w$ 。

对于空间中不在超平面上的一点 $x_i$ ，我们可以通过计算向量 $x_i - x_j$ 在超平面法向量上投影距离来计算其到超平面的几何距离。

我们知道两个向量点乘 $\vec{a}\cdot\vec{b}$ ，其几何意义为 $|a|\cdot|b| \cos\theta$ ，即一个向量的模乘以另一个向量在该向量上投影的模。

根据这一点，我们可以得到向量 $x_i-x_j$ 在平面法向量的投影长度为：
$\frac{w^T\cdot(x_i-x_j)}{||w||} = \frac{||w||\cdot||x_i-x_j||\cos\theta}{||w||} = ||x_i-x_j||\cos\theta\tag{2.3}$ 上式中，我们没有考虑样本类别标签 $y_i$ 。

进一步，我们考虑到分类标签 $y_i$ 之后，表示实际的样本点相对于超平面的距离（如果该点位于超平面正确的一侧，那么距离为正；否则，距离为负）。转换并定义空间中一点 $x_i,y_i)$ 到超平面的几何距离 $\gamma_i$ ：
$\gamma_i=y_i\frac{w^T\cdot(x_i-x_j)}{||w||} = y_i\frac{w^T\cdot x_i - w^T\cdot x_j}{||w||}=y_i\frac{w^T\cdot x_i + b}{||w||} =\frac{\hat{\gamma}}{||w||} = y_i(\frac{w^T}{||w||}\cdot x_i + \frac{b}{||w||}\tag{2.4})$ 其实，就是将距离转换成了将空间中任意一点 $x_i$ 带入到超平面方程中，在用法向量的模来归一化一下的值，最后根据分类标签判断一下该点所在一侧是否是其应该在的一侧，从而得到几何距离。

对于训练样本集中所有样本点 $\{(x_1,y_x),(x_2,y_2),\dots,(x_n,y_n)\}$ ，我们能得到其中的最小几何间隔为：
$\gamma = \min_{i=1,2,\dots,n} \gamma_i$ 实际上，这个距离就是我们所谓的支持向量到超平面的距离。

3. 最大间隔分类器（Maximum Margin Classifier）

顾名思义，最大间隔分类器就是找到一个超平面，使得上面所说的最小几何间距 $\gamma$ 最大。根据公式2.4我们知道：
$\gamma = \frac{\hat{\gamma}}{||w||}$ 同时，对于 $\gamma$ 需要满足 $\ \ y_i(\frac{w^T}{||w||}\cdot x_i + \frac{b}{||w||}) \geq \gamma, i = 1,2,\dots,n$ ；而对于等式右边中的 $\hat{\gamma}$ 需要满足 $y_i(w^Tx_i + b) \geq \hat{\gamma},i=1,2,\dots,n$ 。

因此，最大化最小几何间隔：

$\max_{w,b}\gamma\\ s.t. \ \ y_i(\frac{w^T}{||w||}\cdot x_i + \frac{b}{||w||} ) \geq \gamma, i = 1,2,\dots,n$ 等价于
$\max_{w,b}\frac{\hat{\gamma}}{||w||}\\ s.t. \ \ y_i(w^T\cdot x_i + b) \geq \hat{\gamma}, i = 1,2,\dots,n$
在这里，我们令函数间隔 $\hat{\gamma}$ 为1（该操作不会对函数的优化产生影响），从而将目标函数转化为：
$\max\frac{1}{||w||}\\s.t., y_i(w^T\cdot x_i + b) \geq 1, i = 1,2,\dots,n$ 接着，对于最大化 $\frac{1}{||w||}$ ，等价于最小化 $\frac{1}{2}||w||^2$ ，因此可将SVM中求解最大分隔超平面的问题转换为下列最优化问题：
$\min_{w,b}\frac{1}{2}||w||^2\\ s.t. \ \ y_i(w^T\cdot x_i + b) \geq 1, i = 1,2,\dots,n\tag{3.1}$
该问题为含有不等式约束条件的凸二次规划问题。我们可以使用求解最优化问题的经典方法来进行求解。

4. 拉格朗日乘子法与拉格朗日对偶转化最优化问题

在上一节中，我们已经成功的构建出了SVM的目标函数，通过该目标函数我们能得到最优的分隔超平面，使得训练样本中，各个点到超平面的最小几何间隔（支持向量）最大。然而，该问题是一个含有不等式约束条件的凸二次规划问题。直接求解并不容易，因此需要使用求解最优化问题中常用的方法来转化问题，再进行求解（曲线救国）。

拉格朗日乘子法

对于含有不等式约束的最优化问题，最常用的便是**广义拉格朗日乘子法**，关于该方法在文章一开始提到的预备知识中有所介绍。

根据原始的目标函数（式3.1），通过拉格朗日乘子法构建新的目标函数为：
$L(w,b,\alpha) = \frac{1}{2}||w||^2+\sum_{i=1}^n\alpha_i(1-y_i(w^T\cdot x_i +b))\tag{4.1}$ 其中，拉格朗日乘数 $\alpha_i \geq 0, \forall i = 1,2,\dots,n$ 。

拉格朗日对偶

同样的，关于**拉格朗日对偶**的相关内容，也在之前的博客中。

对于进行完拉格朗日乘子法转化后的目标函数，我们为了构建对偶问题，需要更进一步转化。根据之前的内容，我们可以将原始问题（式3.1）进行下列转化：
首先，我们令：
$\theta_P(w) = \max_{\alpha:\alpha_i\geq 0}L(w,b,\alpha)$

当 $w_i,b$ 不满足约束条件时， $\alpha_i$ 取 $+\infty$ 则函数没有极大值
当 $w_i,b$ 满足约束条件时， $\alpha_i$ 取 $0$ 则函数极大值为 $\frac{1}{2}||w||^2$

因此可得分段函数：
$\theta_P(x)=\begin{cases}\frac{1}{2}||w||^2,x\in 可行域\\+\infty\ \ \ \ \ ,x\in 不可行域 \end{cases}$ 因此，带不等式约束条件的原始问题可以转换为：
$\min_{w,b}\theta_P(w) = \min_{w,b}\max_{\alpha:\alpha_i\geq = 0}L(w,b,\alpha)=p^*\tag{4.2}$ 得到原始问题的全新形式之后，我们通过调换求最大值和最小值的顺序，得到该问题的对偶问题，即：
$\max_{\alpha:\alpha_i\geq = 0}\min_{w,b}L(w,b,\alpha)=d^*\tag{4.3}$

到这里，我们通过一系列的转换，将最原始的目标函数（式3.1）变成了没有约束条件的形式（式4.1），同时也得到了其相对应的对偶问题（式4.2）。我们之所以要得到该对偶问题，是为了能更加简便的求解着个最优化问题，但是对于普通的最优化问题（不一定是凸优化），我们只能得到 $d^*\leq p^*$ 这样的结论，然后为了求解得到 $p^*$ 和它对应的最优值点 $(w^*,b^*,\alpha^*)$ ，我们必须想办法使得 $d^* = p^*$ 。KKT条件正是用在此处。

什么情况下原始问题和其对偶问题有共同的解？

当原始问题和对偶问题满足强对偶关系的时候，有共同的最优解。

什么时候满足强对偶关系呢？，

Slater条件
定义：对于原始问题及其对偶问题，假设函数 $f (x)$ 和 $g_i(x)$ 是凸函数， $h_i(x)$ 是仿射函数，且不等式约束 $g_i(x)$ 是严格可行的，即存在一个 $x$ ，使得不等式约束 $g_i(x)<0 ,\forall i = 1,\dots,m$ ，则存在 $x^*,\lambda^*,\mu^*$ 使得 $d^*=p^*$ 。
KKT条件
定义： 对于原始问题及其对偶问题，假设函数 $f (x)$ 和 $g_i(x)$ 是凸函数， $h_i(x)$ 是仿射函数，且不等式约束 $g_i(x)$ 是严格可行的，即存在一个 $x$ ，使得不等式约束 $g_i(x)<0 ,\forall i = 1,\dots,m$ ，则存在 $x^*$ 是原始问题的解, $\lambda^*,\mu^*$ 是对偶问题的解，并使得 $d^*=p^*$ 的充要条件是 $x^*,\lambda^*,\mu^*$ 满足KKT条件。

通过之前博客中从一般强对偶最优化问题推出了KKT条件这一结论，我们知道，KKT条件是强对偶问题的必要条件；又当原始问题为凸优化问题时，KKT条件就升级为充要条件，也就是说**当原始问题是凸优化问题，并且存在 $x^*和(\lambda^*,\mu^*)$ 满足KKT条件的话，那 $x^*和(\lambda^*,\mu^*)$ 分别是原始问题和对偶问题的极值点并且强对偶关系成立。

本问题Slater条件满足证明

对于原始问题（式3.1）：
$\min_{w,b}\frac{1}{2}||w||^2\\ s.t. \ \ y_i(w^T\cdot x_i + b) \geq 1, i = 1,2,\dots,n$

我们假设求得了极小值点 $(w^*,b^*,\alpha^*)$ ，则我们选取点 $2w^*,2b^*)$ (Slater条件并没有要求该点一定是最优解点)带入到原约束方程的 $y_i((2w^*)^T\cdot x_i + 2b^*) \geq 2 >1$ ，也就是点 $2w^*,2b^*)$ 使得不等式约束严格成立，所以该问题满足Slater条件，从而有 $d^*=p^*$ 。

在此，Slater条件的满足，代表着对于线性可分的训练样本，能够找到超平面来对样本进行区分。

KKT条件满足必要性

在满足原始问题是凸优化问题、满足Slater条件之后，KKT条件就是验证极值点的最后一道标准。

用广义拉格朗日乘子法转换（式 3.1）得到的拉格朗日函数为（式4.1）：
$L(w,b,\alpha) = \frac{1}{2}||w||^2+\sum_{i=1}^n\alpha_i(1-y_i(w^T\cdot x_i +b))$

KKT条件如下：
$\begin{cases} \frac{\partial L(w,b,\alpha)}{\partial w} = 0\\ \frac{\partial L(w,b,\alpha)}{\partial b} = 0\\ \alpha_i(1-y_i(w^T\cdot x_i +b)) = 0,\forall i = 1,2,\dots,n\\ \alpha_i \geq 0, \forall i =1,2,\dots,n\\ \end{cases}$ 因此，我们只需要求解原始问题对应的对偶问题的极值点，然后将求得的解带入KKT条件中，看是否满足。如果满足，那么这个解就是对偶问题极值点，因此该点使得 $d^*=p^*$ 。

5. 对偶问题的求解

在这里，我们假设满足KKT条件，则我们就可以通过求解对偶问题来代替原始问题啦。

对偶问题如下：
$\max_{\alpha:\alpha_i\geq = 0}\min_{w,b}L(w,b,\alpha)=d^*\tag{5.1}$ 其中
$L(w,b,\alpha) = \frac{1}{2}||w||^2+\sum_{i=1}^n\alpha_i(1-y_i(w^T\cdot x_i +b))\tag{5.2}$

先求对偶问题内的最小化问题

针对这一步求解，我们分两步进行，首先求
$\min_{w,b}L(w,b,\alpha)$ ，这一步中 $\alpha$ 视为常数，则只需要对 $L(w,b,\alpha)$ 求关于 $w, b$ 的偏导并等于零，即可。

$\begin{aligned} \frac{\partial L(w,b,\alpha)}{\partial w} &= \frac{\partial(\frac{1}{2}||w||^2+\sum_{i=1}^n\alpha_i(1-y_i(w^Tx_i+b)))}{\partial w}\\ &=\frac{\partial(\frac{1}{2}||w||^2+\sum_{i=1}^n\alpha_i-\alpha_iy_iw^Tx_i-\alpha_iy_ib)}{\partial w}=0 \end{aligned}$ 根据求导公式 $\frac{\partial w^T}{\partial w} = I$ ，有：
$\frac{\partial L(w,b,\alpha)}{\partial w} = w + \sum_{i=1}^n -\alpha_iy_ix_i=0$ 则有：
$w=\sum_{i=1}^n\alpha_iy_ix_i\tag{5.3}$

之后求关于 $b$ 的偏导得：

$\begin{aligned} \frac{\partial L(w,b,\alpha)}{\partial b} &= \frac{\partial(\frac{1}{2}||w||^2+\sum_{i=1}^n\alpha_i(1-y_i(w^Tx_i+b)))}{\partial b}\\ &=\frac{\partial(\frac{1}{2}||w||^2+\sum_{i=1}^n\alpha_i-\alpha_iy_iw^Tx_i-\alpha_iy_ib)}{\partial b}\\ &=0 \end{aligned}$ 得：
$\sum_{i=1}^n\alpha_iy_i = 0\tag{5.4}$ 将式5.3和5.4带入5.2中，得到：
$\begin{aligned} L(w,b,\alpha)&=\frac{1}{2}||w||^2+\sum_{i=1}^n\alpha_i(1-y_i(w^T\cdot x_i +b))\\ &=\frac{1}{2}w^Tw+\sum_{i=1}^n\alpha_i-\sum_{i=1}^n\alpha_iy_iw^Tx_i-\sum_{i=1}^n\alpha_iy_ib\\ &=\frac{1}{2}w^T\cdot\sum_{i=1}^n\alpha_iy_ix_i + \sum_{i=1}^n\alpha_i-\sum_{i=1}^n\alpha_iy_iw^Tx_i-b\sum_{i=1}^n\alpha_iy_i\\ &=\frac{1}{2}w^T\cdot\sum_{i=1}^n\alpha_iy_ix_i + \sum_{i=1}^n\alpha_i-w^T\sum_{i=1}^n\alpha_iy_ix_i\\ &=\sum_{i=1}^n\alpha_i-\frac{1}{2}w^T\cdot\sum_{i=1}^n\alpha_iy_ix_i\\ &=\sum_{i=1}^n\alpha_i-\frac{1}{2}(\sum_{i=1}^n\alpha_iy_ix_i)^T\cdot\sum_{i=1}^n\alpha_iy_ix_i\\ &=\sum_{i=1}^n\alpha_i-\frac{1}{2}\sum_{i=1}^n\alpha_iy_i{x_i}^T\cdot\sum_{i=1}^n\alpha_iy_ix_i\\ &=\sum_{i=1}^n\alpha_i-\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_j{x_i}^Tx_j \end{aligned}$ 从而得到只含有 $\alpha$ 的目标函数：
$L(w,b,\alpha)=\sum_{i=1}^n\alpha_i-\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_j{x_i}^Tx_j\tag{5.5}$

再求关于 $\alpha$ 的极大值

根据上面的转换，我们能得到如下只包含 $\alpha$ 的最优化问题：
$\max_\alpha \sum_{i=1}^n\alpha_i-\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_j{x_i}^Tx_j\\ s.t. \ \ \sum_{i=1}^n\alpha_iy_i = 0\\ \alpha_i \geq 0, \forall i = 1,2,\dots,n$ 把上面的式子添加一个负号，转为求极小值：
$\min_\alpha \frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_j{x_i}^Tx_j-\sum_{i=1}^n\alpha_i\\ s.t. \ \ \sum_{i=1}^n\alpha_iy_i = 0\\ \alpha_i \geq 0, \forall i = 1,2,\dots,n$

求解上述的最优化问题，我们可以使用更高效的优化算法，即序列最小优化（SMO）算法。

序列最小优化（SMO）算法

由于SMO算法主要针对包含核函数以及软边缘支持向量机的目标函数最优化，因此在详细介绍SMO算法之前，先介绍核函数及软边缘。

线性可分样本的模型使用

目前为止，我们在训练样本线性可分（存在一个超平面将两类样本分开）的前提下，通过拉格朗日对偶等一系列操作得到了我们想要的最大间隔超平面 $(w^*,b^*)以及对应的\alpha^*$ 。这时，对于一个新的测试样本 $x$ ，我们只需要把 $x$ 带入到方程 $f(x)={w^*}^Tx + b^*$ ，然后看 $f (x)$ 的正负号来划分其类别。

这里我们能发现，由于前面推导中的式5.3，我们有：
$w^*=\sum_{i=1}^n\alpha_i^*y_ix_i$ 然后计算测试样本的方程可以变为：
$(\sum_{i=1}^n\alpha_i^*y_ix_i)^Tx+b^*=\sum_{i=1}^n\alpha_i^*y_ix_i^Tx+b^* = \sum_{i=1}^n\alpha_i^*y_i< x_i,x>+b^*\tag{5.6}$ 其中， $lt; x_i,x>$ 表示两个向量的內积。

虽然上式显示了对于一个测试样本，他要计算与所有训练样本中电的內积，在乘积系数 $\alpha_i$ 和分类类别 $y_i$ ，但是，根据原始问题的约束条件我们知道，当 $(1-y_i(w^T\cdot x_i +b) < 0$ 时，对应的 $\alpha_i=0$ ；当 $(1-y_i(w^T\cdot x_i +b) = 0$ 时，对应的 $\alpha_i \neq 0$ ，因此我们将 $(1-y_i(w^T\cdot x_i +b) = 0$ 时的训练样本点 $x_i,y_i$ 称为支持向量，用于计算新样本的类别。

6.核函数

事实上，大部分时候真实的数据集都不是线性可分的，这个时候根本不存在这样的超平面将不同的样本正确分开。

关于核函数，pluskid的博客讲的非常清晰，这里仅拷贝过来以防丢失。
在这里插入图片描述

以上即为pluskid关于核函数讲解的原文，总结来说，对于非线性可分的问题，我们希望通过将原始维度的数据映射到更高维度的空间里，在更高维度的空间里来寻找超平面来区分数据；然而，如果直接将数据进行高维映射，会出现映射后的维度是原始维度的指数倍（维度爆炸），使得计算非常困难；为了避免直接的将低维度数据先映射到高纬度数据在进行计算的问题，核函数方法诞生了，核函数通过在低维度的空间中直接对数据进行计算，来得到高维映射后內积结果，避免了先进行高维映射的弊端。

其中，pluskid提到高斯核计算后的內积相当于将原始低维度数据映射到无穷维度之后再进行內积运算。这里我们来看一下是为什么。

首先，对于多项式核，在前面的例子中我们可以看到，确定了多项式核的参数 $d$ ，也就确定了映射的最高维度。

但是，对于高斯核，我们可以得到：
$K(x_1,x_2) = e^{-\frac{||x_1-x_2||^2}{2\sigma^2}}$ 设 $x_1,x_2$ 原始空间为二维空间，即 $x_1=(\eta_1,\xi_1)^T,x_2=(\eta_2,\xi_2)^T$ ，则经过高斯核映射的向量內积为：
$\begin{aligned} K(x_1,x_2) &= e^{-\frac{||x_1-x_2||^2}{2\sigma^2}}\\ &=e^{-\frac{(\eta_1-\eta_2)^2+(\xi_1-\xi_2)^2}{2\sigma^2}}\\ &=e^{-\frac{\eta_1^2-2\eta_1\eta_2+\eta_2^2+\xi_1^2-2\xi_1\xi_2+\xi_2^2}{2\sigma^2}} \end{aligned}\tag{6.1}$ 根据 $e^x$ 的泰勒展开式：
$e^x \approx 1+x+\frac{x^2}{2!} + \frac{x^3}{3!}+\cdots+\frac{x^n}{n!}$ 所以，式6.1继续展开可得：
$\begin{aligned} K(x_1,x_2) &= e^{-\frac{\eta_1^2-2\eta_1\eta_2+\eta_2^2+\xi_1^2-2\xi_1\xi_2+\xi_2^2}{2\sigma^2}}\\ &=1+(\frac{-1}{2\sigma^2})^1\cdot\frac{1}{1!}\cdot(\eta_1^2-2\eta_1\eta_2+\eta_2^2+\xi_1^2-2\xi_1\xi_2+\xi_2^2)^1 + (\frac{-1}{2\sigma^2})^2\cdot\frac{1}{2!}\cdot(\eta_1^2-2\eta_1\eta_2+\eta_2^2+\xi_1^2-2\xi_1\xi_2+\xi_2^2)^2 + ... + (\frac{-1}{2\sigma^2})^n\cdot\frac{1}{n!}\cdot(\eta_1^2-2\eta_1\eta_2+\eta_2^2+\xi_1^2-2\xi_1\xi_2+\xi_2^2)^n \end{aligned}$
将各个项完全展开我们能看到，高斯核实现了将原始的低维度数据映射到了无线维度上。观察高斯核中的参数 $\sigma^2$ ，我们发现，当 $\sigma^2$ 很小的时候，核函数对于高维度的项的衰减作用小，相当于我们用非常复杂的函数来拟合数据，因此可能出现过拟合（high variance）的情况；当 $\sigma^2$ 较大时，对于高维度的项乘法较大，相当于我们用比较简单的函数拟合数据，因此可能出现欠拟合的问题（high bias），因此，通过调整参数 $\sigma^2$ ，高斯核有很大的灵活性。

至此，我们讲完了关于核函数的内容，因为在SVM的目标函数中向量计算时都是计算的內积，因此可以将原来的內积计算 $lt;x_i,x_j>$ 替换为核函数 $k(x_i,x_j)$ ，从而有：
$\min_\alpha \frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_jK(x_i,x_j)-\sum_{i=1}^n\alpha_i\\ s.t. \ \ \sum_{i=1}^n\alpha_iy_i = 0\\ \alpha_i \geq 0, \forall i = 1,2,\dots,n$

7. 处理Outliers

同样还是引用pluskid的文章，讲解的依然很清晰，为保存起见，特此粘贴到此。
在这里插入图片描述

至此，我们得到了包含有松弛变量、核函数的最终对偶问题，即：
$\min_\alpha \frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_jK(x_i,x_j)-\sum_{i=1}^n\alpha_i\\ s.t. \ \ \sum_{i=1}^n\alpha_iy_i = 0\\ 0 \leq \alpha_i \leq C, \forall i = 1,2,\dots,n$ 其中， $C$ 是参数，控制对Outliers的允许程度； $K(x_i,x_j)$ 是核函数。

下面就是用SMO算法来求解这个对偶问题，得到我们想要的 $w^*,b^*,\alpha^*$ 即可。

8. SMO最小序列优化算法

为了更为快速方便的求解上述最优化问题，SMO应运而生。由于最优化问题中限制条件的存在，该方法的核心思想是：一次优化只选取两个待优化变量，这样能够在优化目标的同时，保证变量能够满足约束条件。

OK，那么直接开吧，接着上述最优化问题：
$\min_\alpha \frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_jy_iy_jK(x_i,x_j)-\sum_{i=1}^n\alpha_i\\ s.t. \ \ \sum_{i=1}^n\alpha_iy_i = 0\\ 0 \leq \alpha_i \leq C, \forall i = 1,2,\dots,n$

计算没有修剪过的原始解

假设我们选取的两个优化参数为 $\alpha_1,\alpha_2$ ，其他的设为常数， $K(x_i,x_j)$ 记作 $K_{i,j}$ 则我们有：
$\begin{aligned} W(\alpha_1,\alpha_2) =&\frac{1}{2}\alpha_1\alpha_1y_1y_1K_{1,1} + \frac{1}{2}\alpha_1\alpha_2y_1y_2K_{1,2}+\cdots+\frac{1}{2}\alpha_1\alpha_ny_1y_nK_{1,n}+\\ &\frac{1}{2}\alpha_2\alpha_1y_2y_1K_{2,1}+\frac{1}{2}\alpha_2\alpha_2y_2y_2K_{2,2}+\cdots + \frac{1}{2}\alpha_2\alpha_ny_2y_nK_{2,n}\\ &\frac{1}{2}\alpha_3\alpha_1y_3y_1K_{3,1}+\frac{1}{2}\alpha_3\alpha_2y_3y_2K_{3,2}+ \underbrace{\frac{1}{2}\alpha_3\alpha_3y_3y_3K_{3,3}+\cdots+\frac{1}{2}\alpha_3\alpha_ny_3y_nK_{3,n}}_{C_3}+\\ &\frac{1}{2}\alpha_4\alpha_1y_4y_1K_{4,1}+\frac{1}{2}\alpha_4\alpha_2y_4y_2K_{4,2}+ \underbrace{\frac{1}{2}\alpha_4\alpha_3y_4y_3K_{4,3}+\cdots+\frac{1}{2}\alpha_4\alpha_ny_4y_nK_{4,n}}_{C_4}+\\ &\cdots\\ &\frac{1}{2}\alpha_n\alpha_1y_ny_1K_{n,1}+\frac{1}{2}\alpha_n\alpha_2y_ny_2K_{n,2}+ \underbrace{\frac{1}{2}\alpha_n\alpha_3y_ny_3K_{n,3}+\cdots+\frac{1}{2}\alpha_n\alpha_ny_ny_nK_{n,n}}_{C_n}\\ &-\alpha_1-\alpha_2-\underbrace{\sum_{i=3}^{n}\alpha_i}_{C_\alpha}\\ =&\frac{1}{2}\alpha_1^2y_1^2K_{1,1}+\frac{1}{2}\alpha_1\alpha_2y_1y_2K_{1,2}+\frac{1}{2}\sum_{i=3}^n\alpha_1\alpha_iy_1y_iK_{1,i}+\\ &\frac{1}{2}\alpha_2\alpha_1y_2y_1K_{2,1}+\frac{1}{2}\alpha_2^2y_2^2K_{2,2}+\frac{1}{2}\sum_{i=3}^n\alpha_2\alpha_iy_2y_iK_{2,i}+\\ &\frac{1}{2}\sum_{i=3}^n\alpha_i\alpha_1y_iy_1K_{i,1}+\frac{1}{2}\sum_{i=3}^n\alpha_i\alpha_2y_iy_2K_{i,2}+C_3+C_4+\cdots+C_n+\\ &-\alpha_1-\alpha_2-C_\alpha\\ =&\frac{1}{2}\alpha_1^2K_{1,1}+\frac{1}{2}\alpha_2^2K_{2,2}+\alpha_1\alpha_2y_1y_2K_{1,2}+\alpha_1y_1\sum_{i=3}^n\alpha_iy_iK_{1,i}+\alpha_2y_2\sum_{i=3}^n\alpha_iy_iK_{2,i}-\alpha_1-\alpha_2-C\tag{8.1} \end{aligned}$

根据 $\sum_{i=1}^n\alpha_iy_i = 0$ 有：
$\alpha_1y_1+\alpha_2y_2 = -\sum_{i=3}^n\alpha_iy_i = \zeta$ 两边同乘以 $y_1$ 有：
$\alpha_1 = \zeta y_1-y_1y_2\alpha_2\tag{8.2}$ 同时，令
$\nu_1= \sum_{i=3}^n\alpha_iy_iK_{1,i}\tag{8.3}$ $\nu_2= \sum_{i=3}^n\alpha_iy_iK_{2,i}\tag{8.4}$ 将式8.2 8.3 8.4 带入8.1中得：
$\begin{aligned} W(\alpha_2)=&\frac{1}{2}(\zeta y_1-y_1y_2\alpha_2)^2K_{1,1}+\frac{1}{2}\alpha_2^2K_{2,2}+(\zeta y_1-y_1y_2\alpha_2)\alpha_2y_1y_2K_{1,2} + (\zeta y_1-y_1y_2\alpha_2)y_1\nu_1+\alpha_2y_2\nu_2-(\zeta y_1-y_1y_2\alpha_2)-\alpha_2-C\\ =&\frac{1}{2}(\zeta^2-2\zeta y_2\alpha_2 + \alpha_2^2)K_{1,1}+\frac{1}{2}\alpha_2^2K_{2,2}+(\zeta -y_2\alpha_2)\alpha_2y_2K_{1,2} +\zeta\nu_1-y_2\nu_1\alpha_2+y_2\nu_2\alpha_2-\zeta y_1+y_1y_2\alpha_2-\alpha_2-C\\ =&\frac{1}{2}\zeta^2K_{1,1}-\zeta y_2K_{1,1}\alpha_2+\frac{1}{2}K_{1,1}\alpha_2^2+ \frac{1}{2}K_{2,2}\alpha_2^2+\zeta y_2K_{1,2}\alpha_2-K_{1,2}\alpha_2^2+\zeta \nu_1-y_2\nu_1\alpha_2+y_2\nu_2\alpha_2-\zeta y_1+y_1y_2\alpha_2-\alpha_2-C \end{aligned}$ 为了求极值，则对 $\alpha_2$ 求导数并令其等于0，即：
$\frac{\partial W(\alpha_2)}{\partial \alpha_2}=-\zeta y_2K_{1,1}+K_{1,1}\alpha_2+K_{2,2}\alpha_2+\zeta y_2K_{1,2}-2K_{1,2}\alpha_2-y_2\nu_1+y_2\nu_2+y_1y_2-1=0\tag{8.5}$
至此其实我们就可以求解 $\alpha_2$ 的值了，但是为了进一步简化计算，还能继续推导，核心思想是用上一步中的 $\alpha_{old}$ 计算本次迭代中的 $\alpha_{new}$ 。

基于以上思想，首先由5.6我们知道：
$f(x)=\sum_{i=1}^n\alpha_iy_iK(x_i,x)+b$ 则设：
$\nu_1 = \sum_{i=3}^n\alpha_iy_iK_{1,i} = f(x_1)-\alpha_1y_1K_{1,1}-\alpha_2y_2K_{1,2}-b\tag{8.6}$ $\nu_2 = \sum_{i=3}^n\alpha_iy_iK_{2,i} = f(x_2)-\alpha_1y_1K_{1,2}-\alpha_2y_2K_{2,2}-b\tag{8.7}$ 注意，这里的 $\alpha_1,\alpha_2$ 是在进行优化前的参数值，即 $\alpha_1^{old},\alpha_2^{old}$ 所以根据式8.2 8.6 8.7我们能得到：
$\begin{aligned} \nu_1-\nu_2 &= f(x_1)-f(x_2)-\alpha_1^{old}y_1K_{1,1}-\alpha_2^{old}y_2K_{1,2}+\alpha_1^{old}y_1K_{1,2}+\alpha_2^{old}y_2K_{2,2}\\ &=f(x_1)-f(x_2)-( \zeta y_1-y_1y_2\alpha_2^{old})y_1K_{1,1}-\alpha_2^{old}y_2K_{1,2}+(\zeta y_1-y_1y_2\alpha_2^{old})y_1K_{1,2}+\alpha_2^{old}y_2K_{2,2}\\ &=f(x_1)-f(x_2)- \zeta K_{1,1}+y_2K_{1,1}\alpha_2^{old}-y_2K_{1,2}\alpha_2^{old}+\zeta K_{1,2}-y_2K_{1,2}\alpha_2^{old}+y_2K_{2,2}\alpha_2^{old}\\ &=f(x_1)-f(x_2)-\zeta K_{1,1}+\zeta K_{1,2}+(K_{1,1}+K_{2,2}-2K_{1,2})y_2\alpha_2^{old} \end{aligned}\tag{8.8}$ 将式8.8 代入式 8.5得到：
$\begin{aligned} \frac{\partial W(\alpha_2^{new})}{\partial \alpha_2^{new}}&=-\zeta y_2K_{1,1}+K_{1,1}\alpha_2^{new}+K_{2,2}\alpha_2^{new}+\zeta y_2K_{1,2}-2K_{1,2}\alpha_2^{new}-y_2(\nu_1-\nu_2)+y_1y_2-1\\ &=(K_{1,1}+K_{2,2}-2K_{1,2})\alpha_2^{new}-\zeta y_2K_{1,1}+\zeta y_2K_{1,2}-y_2[f(x_1)-f(x_2)-\zeta K_{1,1}+\zeta K_{1,2}+(K_{1,1}+K_{2,2}-2K_{1,2})y_2\alpha_2^{old}]+y_1y_2-1\\ &=(K_{1,1}+K_{2,2}-2K_{1,2})\alpha_2^{new}-(K_{1,1}+K_{2,2}-2K_{1,2})\alpha_2^{old}-y_2(f(x_1)-f(x_2)-y_1+y_2) \end{aligned}$ 这里我们设预测值和真实值的误差为 $E_i=f(x_i)-y_i$ ，并且令 $K_{1,1}+K_{2,2}-2K_{1,2}=\eta$ ，则有：
$\frac{\partial W(\alpha_2^{new})}{\partial \alpha_2^{new}}=\eta\alpha_2^{new}-\eta\alpha_2^{old}-y_2(E_1-E_2)=0$ 则有： $\alpha_2^{new}= \alpha_2^{old}+\frac{y_2(E_1-E_2)}{\eta}$ 至此，我们通过一系列变换，将参数更新后的 $\alpha_2^{new}$ 用本次迭代开始时还未更新的 $\alpha_2^{old}$ 的形式来表示。

但是，由于我们并未考虑单个 $\alpha_i$ 值的取值范围问题，即原始问题的约束条件。下面将通过根据约束条件中的取值范围，对所得到的参数值 $\alpha_2^{new}$ 进行修剪。

对原始解进行修剪

由于同时上面的方法，求得的解并未要求一定是满足原问题约束条件的，因此，我们需要根据约束条件，来对求得值进行修剪，使得所有参数，在每次迭代优化后，都还是满足约束条件的，这里我们将没有修剪过的 $\alpha_2^{new}$ 记作 $\alpha_2^{new,unclipped}$ 。

所以，首先我们看看该问题的约束条件是怎么影响所求解的两个参数 $\alpha_1,\alpha_2$ 的。首先约束条件如下：
$\begin{cases} \alpha_1y_1+\alpha_2y_2 = -\sum_{i=3}^n\alpha_iy_i = \zeta\\ 0 \leq \alpha_i \leq C, \forall i = 1,2,\dots,n \end{cases}$ 如上约束条件为约束，通过下面的图我们能够清晰的看出：

当 $y_1 \neq y_2$ 时，有 $\alpha_2 = \alpha_1+k$ ，则当 $k > 0$ 或 $k < 0$ 时，能得到下图图线，根据 $k$ 的取值不同，对应不同图线，其中 $-C\leq k \leq C$ ：

由图我们能看到，对于 $y_1 \neq y_2$ 时， $\alpha_2$ 的取值范围的上下界(可以变换k的值，平移线段来理解)为：
$\begin{cases} L=\max\{0, \alpha_2^{old}-\alpha_1^{old}\}\\ H=\min\{C,C+\alpha_2^{old}-\alpha_1^{old}\} \end{cases}$
当 $y_1 = y_2$ 时，有 $\alpha_2 = -\alpha_1+k$ ，则当 $0 < k < C$ 或 $C < k < 2 C$ 时，能得到下图：

同样的，当 $y_1=y_2$ 时，我们同样能得到 $\alpha_2$ 的取值上下界：
$\begin{cases} L=\max\{0, \alpha_2^{old}+\alpha_2^{old}-C\}\\ H=\min\{C, \alpha_2^{old}+\alpha_2^{old}\} \end{cases}$

通过结合上面两种情况中的上下界，我们就可以对 $\alpha_2^{old}$ 进行修剪了。修剪后的 $\alpha_2^{clipped}$ 为：
$\alpha_2^{new}= \begin{cases} H,\ \ \ \ \ \ \ \ \ \ \ \ \alpha_2^{new,unclipped} > H\\ \alpha_2^{new,unclipped},\ \ \ \ \ \ \ \ L\leq \alpha_x^{new,unclipped}\leq H\\ L,\ \ \ \ \ \ \ \ \ \ \ \ \ \alpha_2^{new,unclipped}<L \end{cases}$

因此得到修剪后的 $\alpha_2^{new}$ ，便可以根据等式 $\alpha_2^{old}y_2+\alpha_1^{old}y_1=\alpha_2^{new}y_2+\alpha_1^{new}y_1$ 计算得到 $\alpha_1^{new}$ 了，即：
$\alpha_1^{new}=\alpha_1^{old}+y_1y_2(\alpha_2^{old}-\alpha_2^{new})$

更新参数 $b$

在我们通过一次迭代更新了两个参数 $\alpha_1,\alpha_2$ 之后，其实就是对我们要求的超平面的法向量做了一丢丢调整，向着我们的最大间隔超平面前进。通过公式5.3 $w=\sum_{i=1}^n\alpha_iy_ix_i$ 我们也能看出是这样的。

对于超平面的确定，除了法向量 $w$ ，还有后面的常数项 $b$ ，因此在调整法向量中 $\alpha_1,\alpha_2$ 之后，我们还要调整常数项，使得满足约束条件 $(1-y_i(w^T\cdot x_i +b) \leq 0$ 。根据5. 对偶问题求解中线性可分样本的模型使用小结中我们知道：当 $0<\alpha_i<C$ 时，由KKT条件（ $\alpha_i(1-y_i(w^T\cdot x_i+b))=0$ ）可知， $1-y_i(w^T\cdot x_i+b)=0$ ，即该样本点 $x_i,y_i)$ 的函数距离为1，是模型中的支持向量。所以，对于优化过后的参数我们有：

对于 $0<\alpha_1^{new}<C$ 及其对应的样本点 $x_1,y_1)$ 有：
$\begin{aligned} &y_1(w^T\cdot x_1 +b_1^{new}) =1\\ &w^T\cdot x_1 +b_1^{new} =y_1\\ &\sum_{i=1}^n\alpha_iy_iK(x_i,x_1) + b_1^{new} = y_1\\ &b_1^{new}=y_1-\alpha_1^{new}y_1K(x_1,x_1)-\alpha_2^{new}y_2K(x_2,x_1)-\sum_{i=3}^n\alpha_iy_iK(x_i,x_1)\\ &又\\ &E_1 = \alpha_1^{old}y_1K(x_1,x_1)+\alpha_2^{old}y_2K(x_2,x_1)+\sum_{i=3}^n\alpha_iy_iK(x_i,x_1) + b_{old}-y_1\\ &所以\\ &b_1^{new}=-E_1 - y_1K(x_1,x_1)(\alpha_1^{new}-\alpha_1^{old})- y_2K(x_2,x_1)(\alpha_2^{new}-\alpha_2^{old})+ b_{old} \end{aligned}$
同理，当 $0<\alpha_2^{new}<C$ 时，同样可以计算得到：
$b_2^{new}=-E_2 - y_1K(x_1,x_2)(\alpha_1^{new}-\alpha_1^{old})- y_2K(x_2,x_2)(\alpha_2^{new}-\alpha_2^{old})+ b_{old}$
当 $\alpha_1^{new},\alpha_2^{new}$ 同时满足约束条件 $0<\alpha_i^{new}<C,i = 1,2$ ，则会有 $b_1^{new}=b_2^{new}$
当 $\alpha_1^{new}=0或C,\alpha_2^{new}=0或C$ 时，则 $b_1^{new},b_2^{new}$ 和他们之间的数都是满足KKT条件的，因此选择它们的中点，即 $b^{new}=\frac{b_1^{new}+b_2^{new}}{2}$

前面我们假设选取了两个点，但是，实际情况我应该按照怎样的准则来选取这两个点呢？

这里具体的KKT条件为什么是这样的没有详细阐述，我就按自己的理解阐述一下：
首先我们来看之前的对偶问题：
$\max_{\alpha:\alpha_i\geq = 0}\min_{w,b}L(w,b,\alpha)$ 其中 $L(w,b,\alpha) = \frac{1}{2}||w||^2+\sum_{i=1}^n\alpha_i(1-y_i(w^T\cdot x_i +b))$ 其中，拉格朗日乘数 $\alpha_i \geq 0, \forall i = 1,2,\dots,n$ ，在添加了松弛变量之后，对于参数的约束变为 $\leq \alpha_i \leq C, \forall i = 1,2,\dots,n$

当我们直接看最外层求最大化的部分时（假设 $w, b$ 是确定的常数），那么，当 $1-y_i(w^T\cdot x_i +b)$ 取得不同值的时候，如下相应的 $\alpha_i$ 的取值，才能使得其有最大值：
$\begin{cases} 1-y_i(w^T\cdot x_i +b)<0,\ \ \ \ \alpha_i =0，该点函数距离大于1\\ 1-y_i(w^T\cdot x_i +b)=0,\ \ \ \ 0<\alpha_i <C，该点函数距离等于1，是支持向量\\ 1-y_i(w^T\cdot x_i +b)>0,\ \ \ \ \alpha_i =C，该点函数距离小于1\\ \end{cases}$

所以我们先找到一个点 $x_i,y_i)$ 以及对应的 $\alpha_i$ 不满足上述的条件，定为 $\alpha_1$ ；然后在计算使得 $E_1-E_2|$ 取最大值的点 $x_j,y_j)$ 对应的 $\alpha_j$ 为 $\alpha_2$ 。

综上所述，SMO算法的具体流程如下：

随机数初始化向量权重 $\alpha_i \forall i = 1,2,\dots,n$ 及 $b$
计算误差项 $E_i=f(x_i)-y_i$ ，其中， $f(x)=w^T\cdot x +b = \sum_{i=1}^n\alpha_iy_iK(x_i,x)+b$
根据上述参数选择原则，选择两个待优化的点 $x_1,y_1),(x_2,y_2)$ 及对应的参数 $\alpha_1^{old},\alpha_2^{old}$
令 $\alpha_2^{new,unclipped}= \alpha_2^{old}+\frac{y_2(E_1-E_2)}{\eta}$ ，其中 $\eta=K(x_1,x_1)+K(x_2,y_2)-2K(x_1,x_2)$
根据取值范围对得到的 $\alpha_2^{new,unclipped}$ 进行裁剪 $\alpha_2^{new}= \begin{cases} H,\ \ \ \ \ \ \ \ \ \ \ \ \alpha_2^{new,unclipped} > H\\ \alpha_2^{new,unclipped},\ \ \ \ \ \ \ \ L\leq \alpha_x^{new,unclipped}\leq H\\ L,\ \ \ \ \ \ \ \ \ \ \ \ \ \alpha_2^{new,unclipped}<L \end{cases}$ 其中，当 $y_1\neq y_2$ 时，有 $\begin{cases} L=\max\{0, \alpha_2^{old}-\alpha_1^{old}\}\\ H=\min\{C,C+\alpha_2^{old}-\alpha_1^{old}\} \end{cases}$ 当 $y_1= y_2$ 时，有 $\begin{cases} L=\max\{0, \alpha_2^{old}+\alpha_2^{old}-C\}\\ H=\min\{C, \alpha_2^{old}+\alpha_2^{old}\} \end{cases}$
通过裁剪过后的 $\alpha_2^{new}$ 计算 $\alpha_1^{new}$ : $\alpha_1^{new}=\alpha_1^{old}+y_1y_2(\alpha_2^{old}-\alpha_2^{new})$
根据 $\alpha_1^{new},\alpha_2^{new}$ 计算 $b_1^{new},b_2^{new}$ 从而得到 $b^{new}$ : $b_1^{new}=-E_1 - y_1K(x_1,x_1)(\alpha_1^{new}-\alpha_1^{old})- y_2K(x_2,x_1)(\alpha_2^{new}-\alpha_2^{old})+ b_{old}$ $b_2^{new}=-E_2 - y_1K(x_1,x_2)(\alpha_1^{new}-\alpha_1^{old})- y_2K(x_2,x_2)(\alpha_2^{new}-\alpha_2^{old})+ b_{old}$ $b^{new}=\frac{b_1^{new}+b_2^{new}}{2}$
根据得到的 $\alpha_1^{new},\alpha_2^{new},b^{new}$ 得到全新的误差值 $E_i^{new}$
查看是否到达终止条件，常用的终止条件有1）最大迭代次数2）目标函数 $W$ 的增长率小于某个阈值，即 $\frac{W(\alpha^{new})-W(\alpha^{old})}{W(\alpha^{old})}<\delta$ （这里的增长率要看你求的目标函数是最大值还是最小值来确定公式和阈值，此例是求最大值时用的）

支持向量机的原理和实现
 支持向量机(SVM)——SMO算法
 机器学习算法实践-SVM中的SMO算法
 序列最小优化算法
以上就是整理的关于SVM的全部内容，内容很多，了解的还有些杂乱，希望以后能够逐渐吃透里面的各种细节。

dqhl1990

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
支持向量机-Support Vector Machine

支持向量机-Support Vector Machine将在SVM之前初窥SVM，没想到其涉及了诸多最优化问题的内容，特此在理解SVM的同时，整理了会用到的最优化相关知识，都在这里了。关于SVM的讲解，我看到了两种方法。一种是网上最多的最优超平面方法求解；另一种是Andrew Ng在Coursera上通过逻辑回归延伸出来的方法。这里我先整理根据网上看到的方法。1. 什么是超平面？维基百...
复制链接

扫一扫