支持向量数据描述系列<1>

#1.目的

#2.困难

找到一个边界面包裹目标数据,使得边界内属于目标数据,边界外不属于目标数据,达到对目标数据的识别,本质上它是一种一分类分类器,能够对我和非我进行识别。
#3.解决方案
#4.效果

**

支持向量数据描述

**

摘要

数据描述是对训练目标数据进行描述,然后通过得到的数据描述判别新数据是否与训练数据相似。
我们的目的就是要找出这么一个函数描述目标数据。本文中这个函数是通过QP得到的一个球型边界面,球内的样本是目标数据,球外的样本是非目标数据。

1.引言
数据描述通过对目标训练样本进行训练,然后判断新样本是否与目标训练样本相似。
(1)用分类器的方法
如果新样本与训练样本相似,分类器才会得到可信的结果,未知区域样本的分类结果不可信。
要求提供与正常样本接近的非目标样本。
(2)用分布的方法
只注重于高密度区域,正常区域的分布很难描述
以上方法的困难在于当非目标样本难以获得时,以上方法很难实施。
(3)用边界面的方法描述
本文就是这个思路

2.理论
2.1正常的数据描述

SVDD与估计分类器的VC维比较类似,支持向量越多,VC维越复杂。
原始的优化问题为:
损失函数
限制条件
通过朗格朗日乘子法转变为对偶问题
对偶问题
对偶限制
C大于等于1,上式恒成立。

最终超球体的球心为样本的线性组合
超球体球心

超球体半径
支持向量

这个结果与SVC是类似的。

2.2加入负类样本
损失函数变为

新损失
新限制

通过朗格朗日乘子转变为对偶
新对偶

新限制
加入负类样本后,部分负类样本可能变为支持向量。这个数据描述无法紧密的包裹目标数据

2.3灵活的描述
核函数的参数对SVDD的影响
线性核
线性核
远离原点的数据被认为是支持向量。
可以看到很多没有数据分布的区域被接受为目标区域。

高斯核

高斯核
s越大,越接近于原始解。s越大,支持向量个数越少。
C越小,支持向量的个数越多。C越小,说明错了惩罚也很小导致更多的错误。C越小,超球体的体积越小。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值