考虑二分类问题
现有数学定义:
- 待分类样本集
- 假设空间
那么利用假设对样本集进行标记,那么二分类就是对样本标记为1,-1
例如
‘对分’和‘打散’
相当于利用红线,完成将样本点标记为‘+’或‘-’,每种标记称为一种“对分”
对于二分类,最多有2^m种标记结果,于是取定义:
是样本集的数据数量
若能实现所有种对分,则称数据集可被假设空间“打散”
也就是说,不管我样本真实分类情况如何(所有可能情况),我都可以通过假设空间中的函数划分出来
再回到例题:
图(a) ,所以共有种可能的标记结果(分类结果),且均可以由假设空间实现;
图(b) ,可有16种对分,但是用线性分类器(图a中的假设空间)并不能实现
所以假设空间最多可以打散3个数据,于是可以有如下定义
定义(VC维) 假设空间的VC维是能被打散的最大数据集的大小
VC维的性质
- VC维表示存在大小为d的数据集可被假设空间打散,不代表所有大小为d的数据集都可以
- VC维定义与数据的分布无关
常见模型的VC维
1. 正弦函数的VC维:无穷
对于二分类问题,正弦函数的假设空间为,总可以用某种频率的正弦函数将数据准确的分开,所以可以处理样本数量为无穷
2. SVM
VC维:
VC维的意义
- 可以表示函数集的能力
- 若VC维是无限,则经验风险总可以降低到0
- 确定了风险的边界