【读书笔记】周志华 机器学习 第六章 支持向量机

1 间隔和支持向量

超平面
对上图所示的数据集,有多个超平面可以划分。直观上来说,最中间加粗的那个超平面是最好的,因为离两类数据都比较远。“离两类数据都比较远”的好超平面指的是离超平面最近的点到超平面的距离最大
最优超平面定义
y i w x i ∣ ∣ w ∣ ∣ y_i \frac {{\boldsymbol w}x_i}{||{\boldsymbol w}||} yi∣∣w∣∣wxi表示所有数据到超平面的距离。
d i s t < = y i w x i ∣ ∣ w ∣ ∣ dist <= y_i \frac {{\boldsymbol w}x_i}{||{\boldsymbol w}||} dist<=yi∣∣w∣∣wxi表示dist是最小距离。
m a x   d i s t max\ dist max dist表示要最大化最小距离。
这样,如图所示的最优化问题的求解结果就是希望找的最优超平面。
使用拉格朗日函数法求解该最优化问题。最后可以证明对参数w和b有影响的数据都是离最优超平面最近的点,其他点不影响参数。这些最近的点称为支持向量。在实际学习过程中常使用SMO算法以加快学习速度。

2 核函数

对于非线性可分的数据,可将样本映射到更高维的空间 x − > φ ( x ) {\boldsymbol x}->\varphi ({\boldsymbol x}) x>φ(x),比如 x − > x 2 x -> x^2 x>x2。已经证明,当非线性可分数据特征有限时,一定存在某个高维空间使得其线性可分。问题是,我们事先并不知道该如何映射,不知道是将x映射为平方还是立方。核函数 K ( x 1 , x 2 ) = φ ( x 1 ) ∗ φ ( x 2 ) K({\boldsymbol x}_1, {\boldsymbol x}_2) = {\varphi({\boldsymbol x}_1)}*{\varphi ({\boldsymbol x}_2)} K(x1,x2)=φ(x1)φ(x2)让我们不必知道具体的映射 φ ( x ) \varphi ({\boldsymbol x}) φ(x),只用知道映射之后内积的结果。常用核函数如下图所示。
常用核函数

3 软间隔和正则化

当数据含有噪声时,我们可以适当降低最大距离的要求。同时,加入惩罚项避免一味降低要求。和之间避免过拟合加入正则项类似。
软间隔

4 参考文献

周志华 机器学习 清华大学出版社
谢文睿、秦州 机器学习公式详解 人民邮电出版社
李航 统计学习方法第二版 清华大学出版社
部分图片和文字源自网络和书本,如有侵权联系删除

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值