实际上,在现实任务中很难找到合适的核函数使得训练样本在特征空间中线性可分。即使恰好找到了某个核函数使训练集在特征空间中线性可分,也很难断定这个貌似线性可分的结果不是由于过拟合所造成的。
为此我们引入软间隔的概念,软间隔允许某些样本不满足约束
在最大化间隔的同时,不满足约束的样本应尽可能小,优化目标可以写为
这里的关键在于C,由于min的作用,当C取无穷大时,要求所有样本都严格满足约束。当C取有限值时,允许一些样本不满足约束。
由于0/1损失函数非凸、非连续,数学性质不太好,所以有了一些替代损失函数。
同样是一个二次规划文体,通过拉格朗日乘子法,
得到对偶问题
KKT条件
使用别的替代损失函数替换0/1损失函数得到的模型都有一个共性