机器学习系列25-支持向量机

最新推荐文章于 2024-09-24 22:14:51 发布

Sakura_gh

最新推荐文章于 2024-09-24 22:14:51 发布

阅读量1.3k

点赞数 3

分类专栏：机器学习文章标签：机器学习人工智能深度学习神经网络 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44406200/article/details/107693177

版权

Support Vector Machine

支持向量机(SVM)有两个特点：SVM=铰链损失(Hinge Loss)+核技巧(Kernel Method)

注：建议先看这篇博客了解SVM基础知识后再看本文的分析

Hinge Loss

Binary Classification

先回顾一下二元分类的做法，为了方便后续推导，这里定义data的标签为-1和+1

当 $f (x) > 0$ 时， $g (x) = 1$ ，表示属于第一类别；当 $f (x) < 0$ 时， $g (x) = - 1$ ，表示属于第二类别
原本用 $\sum \delta(g(x^n)\ne \hat y^n)$ ，不匹配的样本点个数，来描述loss function，其中 $\delta=1$ 表示 $x$ 与 $\hat y$ 相匹配，反之 $\delta=0$ ，但这个式子不可微分，无法使用梯度下降法更新参数

因此使用近似的可微分的 $l(f(x^n),\hat y^n)$ 来表示损失函数

下图中，横坐标为 $\hat y^n f(x)$ ，我们希望横坐标越大越好：

当 $\hat y^n>0$ 时，希望 $f (x)$ 越正越好
当 $\hat y^n<0$ 时，希望 $f (x)$ 越负越好

纵坐标是loss，原则上，当横坐标 $\hat y^n f(x)$ 越大的时候，纵坐标loss要越小，横坐标越小，纵坐标loss要越大

ideal loss

在 $L(f)=\sum\limits_n \delta(g(x^n)\ne \hat y^n)$ 的理想情况下，如果 $\hat y^n f(x)>0$ ，则loss=0，如果 $\hat y^n f(x)<0$ ，则loss=1，如下图中加粗的黑线所示，可以看出该曲线是无法微分的，因此我们要另一条近似的曲线来替代该损失函数

square loss

下图中的红色曲线代表了square loss的损失函数： $l(f(x^n),\hat y^n)=(\hat y^n f(x^n)-1)^2$

当 $\hat y^n=1$ 时， $f (x)$ 与1越接近越好，此时损失函数化简为 $f(x^n)-1)^2$
当 $\hat y^n=-1$ 时， $f (x)$ 与-1越接近越好，此时损失函数化简为 $f(x^n)+1)^2$
但实际上整条曲线是不合理的，它会使得 $\hat y^n f(x)$ 很大的时候有一个更大的loss

sigmoid+square loss

此外蓝线代表sigmoid+square loss的损失函数： $l(f(x^n),\hat y^n)=(\sigma(\hat y^n f(x^n))-1)^2$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。