Datawhale 吃瓜教程 支持向量机

一、支持向量机

可以同时存在多个超平滑划分样本 但求得的解是希望距离正负样本都最远的超平面

而距离超平面最近的这几个训练样本称为支持向量

两个异类支持向量到超平面的距离之和为间隔

那么定义可以变为 欲找到具有最大间隔的超平面划分 可以由w和b进行唯一确认(这里可以为高维w和b)

二、核函数

若样本线性可分 即存在一个超平面将所有训练样本正确分类

但若线性不可分 此时可以将原样本从原始空间映射到更高维度的特征空间 使得在这个空间线性可分

*这个基于理论若原始空间是有限维(属性数or feature有限)那一定存在更高维的特征空间使样本可分

而核函数可以理解为映射的形式 所以其选择很重要 常用核函数包含线性核 多项式核 高斯核 拉普拉斯核 sigmoid核 也可多种相结合 即多种不同的映射方式 其实可以理解为deep learning中引入的非线性

三、软间隔和正则化

在支持向量机重要也会存在之前提到的过拟合现象 如何确定一个合适的核函数 是否发生过拟合

缓解这个问题的办法是允许支持向量机在一些样本上出错 即软间隔 但样本数量不可过多

这可以通过在定义模型以及损失上加入权重

*支持向量机与对率回归Logistic Regression 目标相似 但对率回归输出存在概率 可用于多分类问题 而其损失为单调递减函数 需要更多样本和资源训练

支持向量机的优化可以进一步改写为 结构风险+经验风险 其中第一项描述划分超平面的间隔大小 即模型本身的一部分性质(防止过拟合一般从这里体现)被称为 正则化项 而之前提到的权重则是正则化权重 另一项是训练集误差 则是数据预测的accuracy

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值