支持向量机 tensorflow线性与非线性(高斯核函数)实现

最新推荐文章于 2021-05-19 09:20:58 发布

xzccfzy

最新推荐文章于 2021-05-19 09:20:58 发布

阅读量508

点赞数

分类专栏：机器学习 TensorFlow python 文章标签：支持向量机函数间隔几何间隔 tensorflow svn 高斯函数实现

本文链接：https://blog.csdn.net/xzccfzy/article/details/100097016

版权

python 同时被 3 个专栏收录

23 篇文章 0 订阅

订阅专栏

机器学习

14 篇文章 0 订阅

订阅专栏

TensorFlow

10 篇文章 0 订阅

订阅专栏

函数间隔
- 对于给定的训练数据集 $\left \{ (X^{1},y^{1}), (X^{2},y^{2}),......,(X^{m},y^{m})\right \}$ 和分隔超平面 $W X + b = 0$ ，定义分隔超平面关于样本点 $X^{i},y^{i})$ 的函数间隔为： $\hat{\gamma_{i}} = y^{i}(WX^{i} + b)$
  定义分隔超平面关于训练数据集的函数间隔为分隔超平面关于训练数据及中所有样本点的函数间隔的最小值： $\hat{\gamma} = min_{i=1,......,m}\hat{\gamma_{i}}$
几何间隔
- 几何间隔其实就是样本点到超平面的距离： $\gamma_{i} = y_{i}\left ( \frac{WX^{i} + b}{\left \| W \right \|} \right )$
  分隔超平面关于训练数据集的几何间隔为分隔超平面关于训练数据集中所有样本点的几何间隔的最小值： $\gamma = min_{i=1,......,m}{\gamma_{i}}$
支持向量机
支持向量机求解出来的分隔超平面不仅能够正确划分训练数据集，而且几何间隔最大
- 间隔最大化
  对于几何间隔最大的分隔超平面： $max_{(W,b)} \gamma$ ，对于每一个样本，需要满足: $y^{i}\left ( \frac{WX^{i} + b}{\left \| W \right \|} \right ) \geqslant \gamma ,i=1,.....,m$
  因为几何间隔和函数间隔之间的关系，所以上面的几何间隔最大的分隔超平面可以等价为: $max_{(W,b)}\frac{\hat{\gamma }}{\left \| W \right \|}$
  同时需要满足 $y^{i}(WX^{i} + b)\geqslant \hat{\gamma },i=1,.....,m$
  在函数间隔中，函数间隔的取值并不影响最优问题的解。因为从上述的公式可以看出，当 $W$ 和 $b$ 同时扩大2倍之后，函数间隔也扩大为原来的2倍。因此，可以令 $\hat{\gamma } = 1$
  则上述的几何间隔最大的优化问题转化为: $\hat{\gamma } = 1$
  同时需要满足: $y^{i}(WX^{i} + b) - 1 \geqslant 0，i=1,......,m$
支持向量和间隔边界
- 支持向量
  在m个训练样本中，与分割超平面距离最近的样本称为支持向量。支持向量 $X^{i}$ 的约束条件: $y^{i}(WX^{i} + b) - 1 = 0$
  当 $y^{i} = +1$ 时，支持向量所在的超平面为: $H_{1}: WX + b = 1$
  当 $y^{i} = -1$ 时，支持向量所在的超平面为: $H_{2}: WX + b = -1$
- 间隔边界
  超平面 $H_{1}$ 和 $H_{2}$ 之间的距离称为间隔， $H_{1}$ 和 $H_{2}$ 称为间隔边界。
线性支持向量机
- 对于一个数据集中大部分线性可分，某些线性不可分的数据点 $X^{i},y^{i})$ ，是不可能所有数据都满足函数间隔 $\geqslant 1$ 的约束条件。所以需要给每个样本点 $X^{i},y^{i})$ 引入一个松弛变量 $\xi _{i} \geqslant 0$ 使得约束条件变为: $y^{i}(WX^{i} + b) \geqslant 1-\xi _{i}，i=1,......,m$
  同时，对每个松弛变量 $\xi _{i}$ ，添加一个代价 $C$ ，使得目标函数变为: $(\left \| W \right \|)^{2} + C\sum_{i=1}^{m}\xi _{i}$
  此时，求分隔超平面的优化目标为: $min_{(W,b,\xi )}(\left \| W \right \|)^{2} + C\sum_{i=1}^{m}\xi _{i}$
  约束条件为: $y^{i}(WX^{i} + b) \geqslant 1-\xi _{i}，i=1,......,m$ $\xi _{i} \geqslant 0 ,i=1,....,m$
支持向量机的训练
- 对偶算法
  对于上面带约束的优化问题，可以用拉格朗日乘数法转化为不带约束的优化问题。对于拉格朗日乘数法我就不记录了。经过拉格朗日乘数法转换，上述带约束的优化问题可以转换为: $L_{(W,b,\xi ,\alpha ,\beta )} = \frac{1}{2}(\left \| W \right \|)^{2} + C\sum_{i=1}^{m} - \sum_{i=1}^{m}\alpha _{i}(y^{i}(WX^{i} + b) -1 + \xi _{i}) - \sum_{i=1}^{m}\beta _{i}\xi _{i}$
  其中， $\alpha = {(\alpha_{1},\alpha_{2},......,\alpha_{m})} \geqslant 0,\beta = {(\beta_{1},\beta_{2},......,\beta_{m})} \geqslant 0$ 。向量 $\alpha$ 和 $\beta$ 称为拉格朗日乘子向量。加上 $\frac{1}{2}$ 是为了求导方便。
  经过拉格朗日乘数法的转化，原始问题 $min_{(W,b,\xi )}max_{(\alpha ,\beta )}L(W,b,\xi ,\alpha ,\beta )$ 转化为 $max_{(\alpha ,\beta )}min_{(W,b,\xi )}L(W,b,\xi ,\alpha ,\beta )$
  先求 $min_{(W,b,\xi )}L(W,b,\xi ,\alpha ,\beta )$ ，将 $L(W,b,\xi ,\alpha ,\beta )$ 分别对 $W,b,\xi$ 求导可以得到: $\frac{\vartheta L(W,b,\xi ,\alpha ,\beta )}{\vartheta W} = W - \sum_{i1}^{m}\alpha _{i}y^{i}X^{i} = 0$
  $\frac{\vartheta L(W,b,\xi ,\alpha ,\beta )}{\vartheta b} = -\sum_{i=1}^{m}\alpha _{i}y^{i} = 0$
  $\frac{\vartheta L(W,b,\xi ,\alpha ,\beta )}{\vartheta \xi } = C - \alpha _{i} - \beta _{i} = 0$
  将求导结果代入 $L(W,b,\xi ,\alpha ,\beta )$ ，可以得到: $min_{(W,b,\xi )} L(W,b,\xi ,\alpha ,\beta ) = -\frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}\alpha _{i}\alpha _{j}y^{i}y^{j}(X^{i}\cdot X^{j}) + \sum_{i=1}^{m}\alpha _{i}$
  在对 $min_{(W,b,\xi )} L(W,b,\xi ,\alpha ,\beta )$ 求关于 $\alpha$ 的极大值: $max_{(\alpha )} -\frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}\alpha _{i}\alpha _{j}y^{i}y^{j}(X^{i}\cdot X^{j}) + \sum_{i=1}^{m}\alpha _{i}$
  约束条件为: $\sum_{i=1}^{m}\alpha _{i}y^{i} = 0$ $\alpha _{i} - \beta _{i} = 0$ $\alpha _{i} \geqslant 0, \beta _{i} \geqslant 0, i=1,2,......,m$
  可以将上述最大化问题转化为最小化问题： $min_{(\alpha )} \frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}\alpha _{i}\alpha _{j}y^{i}y^{j}(X^{i}\cdot X^{j}) - \sum_{i=1}^{m}\alpha _{i}$
  约束条件与上一致。假设 $\alpha^{*}$ 为上述问题的解，可得： $\sum_{i1}^{m}\alpha _{i}y^{i}X^{i}$
  $y^{j} - \sum_{i1}^{m}\alpha _{i}y^{i}X^{i}X^{j}$
- tensorflow求解线性svm
  在上面的线性支持向量机的分析里面，将优化问题与约束条件相结合，最后得出的优化问题为: $min_{(W,b,\xi )} (\left \| W \right \|)^{2} + C\sum_{i=1}^{m}max(0, 1-y_{i}(WX^{i} + b))$
  C称为惩罚系数，C值大时，对误分类的惩罚增大，C值小时，对误分类的惩罚减小。最小化上述公式一方面要使得 $(\left \| W \right \|)^{2}$ 尽量小即间隔尽量大，另一方面使得误分类的数据尽量少。
  tensoeflow的线性svm代码在https://github.com/xzccfzy/svm.git
  以iris数据中的花瓣宽度和花瓣长度为数据集，运行结果如下图:
- tensorflow 求解非线性svm(高斯核函数)
  tensoeflow的非线性svm代码在https://github.com/xzccfzy/svm.git
  以numpy随机生成的环数据为数据集，运行结果如下图：

xzccfzy

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
支持向量机 tensorflow线性与非线性(高斯核函数)实现

函数间隔对于给定的训练数据集{(X1,y1),(X2,y2),......,(Xm,ym)}\left \{ (X^{1},y^{1}), (X^{2},y^{2}),......,(X^{m},y^{m})\right \}{(X1,y1),(X2,y2),......,(Xm,ym)}和分隔超平面WX+b=0WX + b = 0WX+b=0，定义分隔超平面关于样本点(Xi,yi)(X...
复制链接

扫一扫

专栏目录