机器学习|VC维的理解

考虑二分类问题

现有数学定义:

  • 待分类样本集\{x_1,x_2,\cdots,x_m\}
  • 假设空间\mathcal{H}=\{h_1,h_2,\cdots\}

那么利用假设对样本集进行标记,那么二分类就是对样本标记为1,-1

例如

‘对分’和‘打散’

h相当于利用红线,完成将样本点标记为‘+’或‘-’,每种标记称为一种“对分”

对于二分类,最多有2^m种标记结果,于是取定义:

\Pi_{\mathcal{H}}(m)=2^m

m是样本集的数据数量

若能实现所有种对分,则称数据集可被假设空间“打散”

也就是说,不管我样本真实分类情况如何(所有可能情况),我都可以通过假设空间中的函数划分出来

再回到例题:

图(a) m=3,所以共有\Pi_\mathcal{H}(3)=2^3=8种可能的标记结果(分类结果),且均可以由假设空间\mathcal{H}实现;

图(b) m=4,可有16种对分,但是用线性分类器(图a中的假设空间\mathcal{H})并不能实现

所以假设空间\mathcal{H}最多可以打散3个数据,于是可以有如下定义

定义(VC维) 假设空间\mathcal{H}的VC维是能被\mathcal{H}打散的最大数据集的大小

VC(\mathcal{H})=max\{m:\Pi_\mathcal{H}(m)=2^m\}

VC维的性质

  • VC维表示存在大小为d的数据集可被假设空间打散,不代表所有大小为d的数据集都可以
  • VC维定义与数据的分布无关

常见模型的VC维

1. 正弦函数的VC维:无穷

        对于二分类问题,正弦函数的假设空间为\mathcal{H}:sin(\alpha x),总可以用某种频率的正弦函数将数据准确的分开,所以可以处理样本数量为无穷

2. SVM

 

VC维:

VC(\mathcal{H})\leq \min(D,[\frac{R^2}{\Delta^2}]+1)

VC维的意义

  • 可以表示函数集的能力\mathcal{H}
  • 若VC维是无限,则经验风险总可以降低到0
  • 确定了风险的边界

 

  • 6
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值