【吃瓜教程】西瓜书+南瓜书 第六章 学习笔记

本文详细介绍了支持向量机在处理线性可分和线性不可分数据集时的工作原理,包括超平面的确定、对偶问题、核函数的应用、软间隔与正则化的概念以及支持向量回归(SVR)的使用。重点阐述了如何通过优化间隔和限制错误来提高模型泛化性能。
摘要由CSDN通过智能技术生成

吃瓜教材:

西瓜书:周志华老师的《机器学习》

南瓜书:《机器学习公式详解》第2版

吃瓜视频:【吃瓜教程】《机器学习公式详解》(南瓜书)与西瓜书公式推导

第六章 支持向量机

6.1 间隔与支持向量

       支持向量机:对于线性可分数据集,支持向量机寻找距离正负样本都最远的超平面,感知机是随便一个超平面只要能区分样本即可,相比于感知机(所有黑色直线均可),支持向量机解(最粗的黑线)是唯一的,且不偏不倚,泛化性能更好。

6f9d88d17f1449d6b0e2cff972dc441c.png  超平面

f5e69dbf1d2d4d2493ac5beef173b0dc.png

1.给定一个w,b确定唯一一个超平面;

2.超平面方程不唯一(等号两边同×一个数,右边仍是0,左边w,b已变);

3.法向量w垂直于超平面;

4.法向量w指向的那一半空间为正空间(带入方程>0),另一半负空间(代入方程<0);

25c1a9eb0e254b9ebf874a4097631c70.png

3b67eb0850de4e00ad9ad55993fc7b80.png

几何间隔

b43805f5dedd467c9c3e40e396291fb0.png

支持向量机模型 

对线性可分数据集:

f3441a9713d1499ea7df386d82a7c658.png

支持向量积策略

7e7cf7327c4840499aa882fc8025b47f.png

371dcaafc5cc4afab6b5ee046c3bfed9.png

6.2 对偶问题

求解式(6.6):采用拉格朗日对偶求解

ec2ff4bf2e3d46ffa90d5ee8dba67d91.png

6.3 核函数

若原始样本空间内不存在一个能正确划分两类样本的超平面(数据集线性不可分),则将样本从原始空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性可分。(如果原始空间是有限维,即属性数有限,那么一定存在一个高维特征空间是样本可分。)

3bee7a7971254b8cbf3458c3ebb76fb7.png

通常导致线性不可分的就那几个异常样本,因为几个异常样本,将全体样本映射到更高维空间,易出现过拟合问题。

6.4 软间隔与正则化

软间隔支持向量机:对于线性不可分数据集,允许支持向量机犯错—允许部分(尽可能少)样本不满足约束条件。

3629913110ff494a826a6d86f3058358.png

优化目标(最大化间隔的同时,不满足约束的样本尽可能少): 

546fa98ef23b481fbd6ac39f29db196f.png

合格的损失函数的要求:

1.当满足约束条件时,损失为0

2.当不满足约束条件时,损失>0

3.(可选)当不满足约束条件时,损失与其违反约束条件的程度成正比

6.5 支持向量回归(SVR)

相比于线性回归用一条线拟合样本,SVR采用线为中心,宽度为2ε的间隔带拟合样本。

0f869431631949a78ac4475d9585b119.png

1.落在带子上的点不计入损失

2.不在带子上的点以偏离的距离作为损失

以最小化损失的方式迫使间隔带从样本最密集的地方(中心地带)穿过,达到拟合样本的目的。

65398ea8bf0d44f29fbcf84f2d6a4155.png

  • 19
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值