SVM算法原理分析

最新推荐文章于 2023-03-09 00:30:00 发布

wxf_ou

最新推荐文章于 2023-03-09 00:30:00 发布

阅读量3.4k

点赞数 1

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/wxf_ou/article/details/75810170

版权

机器学习专栏收录该内容

3 篇文章 1 订阅

订阅专栏

SVM算法：
算法背景：支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性（即对特定训练样本的学习精度，Accuracy）和学习能力（即无错误地识别任意样本的能力）之间寻求最佳折衷，以期获得最好的推广能力（或称泛化能力）。
两个基本概念：经验风险，置信风险
经验风险：代表了分类类在给定样本上的误差，真实可以估计！
置信风险：代表了我们有多大程度上可以信任分类器在未知文本上分类的结果（泛化误差界）抽象无法估计！

泛化误差界的公式：
R（w）<=Remp(w)+O(n/h)
真实风险<=经验风险+置信风险
SVM算法要实现的目标就是上式！

统计学习的目标：从经验风险最小化变为了寻求经验风险与置信风险的和最小，即结构风险最小
SVM正是这样一种努力最小化结构风险的算法。

以下为算法的原理分析：
首先SVM算法是用来分类的，所以首先定义分类函数：
定义线性分类函数：g(x)=wx+b
其次，分类函数好坏的判断需要一个评判指标，即用分类间隔来衡量。
定义一个样本点到某个超平面的间隔：δi=yi(wxi+b)
对上式进行归一化处理：
现在把w和b进行一下归一化，即用w/||w||和b/||w||分别代替原来的w和b，那么间隔就可以写成
这里写图片描述
又由于：

分类的标准当然是使得误分次数最少，即最小化误分次数，相当于最小化||w||

另一种几何解释：
间隔：δ=y(wx+b)=|g(x)|
几何间隔：这里写图片描述

可以看出δ=||w||δ几何
所以，最大化几何间隔与最小化||w||完全一回事。

然而我们常用的方法并不是固定||w||的大小而寻求最大几何间隔，而是固定间隔（例如固定为1），寻找最小的||w||。
寻找最小的||w||这件事，就可以用下面的式子表示：
这里写图片描述
但实际上对于这个目标，我们常常使用另一个完全等价的目标函数来代替，那就是：

加约束：

我们前文提到过把间隔固定为1，这是指把所有样本点中间隔最小的那一点的间隔定为1（这也是集合的间隔的定义，有点绕嘴），也就意味着集合中的其他点间隔都不会小于1，按照间隔的定义，满足这些条件就相当于让下面的式子总是成立：
yi[(w·xi)+b]≥1 (i=1,2,…,l) （l是总的样本数）
但我们常常习惯让式子的值和0比较，因而经常用变换过的形式：
yi[(w·xi)+b]-1≥0 (i=1,2,…,l) （l是总的样本数）
因此我们的两类分类问题也被我们转化成了它的数学形式，一个带约束的最小值的问题：
这里写图片描述
从最一般的定义上说，一个求最小值的问题就是一个优化问题（也叫寻优问题，更文绉绉的叫法是规划——Programming），它同样由两部分组成，目标函数和约束条件，可以用下面的式子表示：

一共带有p+q个约束条件，其中p个是不等式约束，q个是等式约束。
以上分析都是针对线性可分的情况！对于线性不可分的情况，又两种不同的解决方案，来处理不同的分类问题，第一种方法利用核函数来进行函数的映射分析。第二种引入松弛变量和惩罚因子来构建软间隔分类器！

wxf_ou

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
SVM算法原理分析

SVM算法：算法背景：支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性（即对特定训练样本的学习精度，Accuracy）和学习能力（即无错误地识别任意样本的能力）之间寻求最佳折衷，以期获得最好的推广能力（或称泛化能力）。两个基本概念：经验风险，置信风险经验风险：代表了分类类在给定样本上的误差，真实可以估计！置信风险：代表了我们
复制链接

扫一扫

专栏目录