支持向量数据描述系列<1>

#1.目的

#2.困难

找到一个边界面包裹目标数据,使得边界内属于目标数据,边界外不属于目标数据,达到对目标数据的识别,本质上它是一种一分类分类器,能够对我和非我进行识别。
#3.解决方案
#4.效果

**

支持向量数据描述

**

摘要

数据描述是对训练目标数据进行描述,然后通过得到的数据描述判别新数据是否与训练数据相似。
我们的目的就是要找出这么一个函数描述目标数据。本文中这个函数是通过QP得到的一个球型边界面,球内的样本是目标数据,球外的样本是非目标数据。

1.引言
数据描述通过对目标训练样本进行训练,然后判断新样本是否与目标训练样本相似。
(1)用分类器的方法
如果新样本与训练样本相似,分类器才会得到可信的结果,未知区域样本的分类结果不可信。
要求提供与正常样本接近的非目标样本。
(2)用分布的方法
只注重于高密度区域,正常区域的分布很难描述
以上方法的困难在于当非目标样本难以获得时,以上方法很难实施。
(3)用边界面的方法描述
本文就是这个思路

2.理论
2.1正常的数据描述

SVDD与估计分类器的VC维比较类似,支持向量越多,VC维越复杂。
原始的优化问题为:
损失函数
限制条件
通过朗格朗日乘子法转变为对偶问题
对偶问题
对偶限制
C大于等于1,上式恒成立。

最终超球体的球心为样本的线性组合
超球体球心

超球体半径
支持向量

这个结果与SVC是类似的。

2.2加入负类样本
损失函数变为

新损失
新限制

通过朗格朗日乘子转变为对偶
新对偶

新限制
加入负类样本后,部分负类样本可能变为支持向量。这个数据描述无法紧密的包裹目标数据

2.3灵活的描述
核函数的参数对SVDD的影响
线性核
线性核
远离原点的数据被认为是支持向量。
可以看到很多没有数据分布的区域被接受为目标区域。

高斯核

高斯核
s越大,越接近于原始解。s越大,支持向量个数越少。
C越小,支持向量的个数越多。C越小,说明错了惩罚也很小导致更多的错误。C越小,超球体的体积越小。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值