SVM中参数C的理解

SVM中参数C用于平衡训练样本正确分类与决策函数边际最大化,影响决策边界的确定。软间隔允许一定程度的训练误差,支持向量可能来自同一类别的点。C值大小决定了模型对分类精度与边界的权衡,C增大时,决策边界收缩,模型更拟合数据,但可能过拟合;C减小时,决策边界扩大,模型更简单,但可能牺牲训练准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

有一些数据,可能是线性可分,但在线性可分状况下训练准确率不能达到100%,即无法让训练误差为0,这样的数据被我们称为“存在软间隔的数据”。此时此刻,我们需要让我们决策边界能够忍受一小部分训练误差,我们就不能单纯地寻求最大边际了。

因为对于软间隔地数据来说,边际越大被分错的样本也就会越多,因此我们需要找出一个”最大边际“与”被分错的样本数量“之间的平衡。因此,我们引入松弛系数 ζ \zeta ζ和松弛系数的系数 C C C作为一个惩罚项,来惩罚我们对最大边际的追求。

参数 C C C用于权衡”训练样本的正确分类“与”决策函数的边际最大化“两个不可同时完成的目标,希望找出一个平衡点来让模型的效果最佳。

参数 描述
C C C 浮点数,默认1,必须大于0,可不填。松弛系数的惩罚项系数。如果C值设定比较大,那SVC可能会选择边际较小的,能够更好地分类所有训练点的决策边界,不过模型的训练时间也会更长。如果C的设定值较小,那SVC会尽量最大化边界,决策功能会更简单,但代价是训练的准确度。换句话说,C在SVM中的影响就像正则化参数对逻辑回归的影响。

在实际使用中, C C C和核函数的相关参数( g a m m a gamma gamma d e g r e e degree degree等等)们搭配,往往是SVM调参的重点。与 g a m m a gamma gamma不同, C C C没有在对偶函数中出现,并且是明确了调参目标的,所以我们可以明确我们究竟是否需要训练集上的高精确度来调整 C C

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值