SVM损失函数

SVM

  • 最大间隔
  • 决策公式
  • 目标函数
  • 损失函数

最大间隔

在这里插入图片描述
让最大间隔作为衡量一条决策边界的好坏的原因是,如果一条决策边界有最大间隔,那么这条决策边界就具有很好的鲁棒性,相当于增加了一个缓冲地带,再来一个数据集我可以很从容的包容你进行分类不至于分错类别。

下面讲下最大间隔的概念,如上图,假如存在一条图中的决策边界,A为边界上的某一点,那么连接原点可以作出通过A点的一个向量u找到一个垂直于决策边界的法向量w,那么决策边界与虚线的距离AB可以用向量w与向量u的内积来表示,我们知道,w.u即为向量u在w上的投影的长度,那么距离C即为间隔.

决策公式

翻译成数学语言:
给定一训练样本,假设样本的特征矩阵为X,类别标签为y,取值为-1或者1,分布代表正样本和负样本.SVM为这些样本寻找一个最优分类超平面,其方程为:
W T ∗ X + b = 0 W^{T}*X+b=0 WTX+b=0
对于正样本有:
W T ∗ X + b > = 0 W^{T}*X+b>=0 WTX+b>=0
对于负样本有:
W T ∗ X + b < = 0 W^{T}*X+b<=0 WTX+b<=0
统一方程为:
y i ( W T ∗ X + b ) > = 0 y_{i}(W^{T}*X+b)>=0 yi(WTX+b)>=0
其中
γ ~ = y i ( W T ∗ X + b ) \widetilde{\gamma} = y_{i}(W^{T}*X+b) γ =yi(WTX+b)称为函数距离

目标函数

  • 函数距离

γ ~ = y i ( W T ∗ X + b ) \widetilde{\gamma}= y_{i}(W^{T}*X+b) γ =yi(WTX+b)

  • 几何距离
    γ = ∣ W T ∗ X + b ∣ ∣ ∣ ω ∣ ∣ \gamma=\frac {|W^{T}*X+b|}{||\omega ||} γ=ωWTX+b

目标:
确定超平面,因此可以把无关的变量固定下来:
γ = γ ~ ∣ ∣ ω ∣ ∣ \gamma =\frac {\widetilde{\gamma}}{||\omega ||} γ=ωγ

固定的方式有两种:

  • 固定 ∣ ∣ ω ∣ ∣ ||\omega || ω
  • 固定 γ ~ \widetilde{\gamma} γ
    为了方便推导和优化,选择第二种,令 γ ~ = 1 \widetilde{\gamma}=1 γ =1,则目标函数化为:
    m a x 1 ∣ ∣ ω ∣ ∣ max \frac{1}{||\omega||} maxω1
    s.t. y i ∗ ( W T x i + b ) > = 1 , i = 1 , 2 , . . . , n y_{i}*(W^{T} x^i+b)>=1 , i = 1,2,...,n yi(WTxi+b)>=1,i=1,2,...,n

损失函数

那么几何间隔最大问题转化为:
m a x 2 ∣ ∣ ω ∣ ∣ max \frac{2}{||\omega||} maxω2
等价于
m i n ∣ ∣ ω ∣ ∣ 2 min \frac{||\omega||}{2} min2ω
等价于
m i n ∣ ∣ ω ∣ ∣ 2 2 min \frac{||\omega||^{2}}{2} min2ω2
上式称为约束最优化问题的原始问题
构造拉格朗日函数:
L ( α , ω , b ) = 1 2 ∣ ∣ ω ∣ ∣ 2 − ∑ i = 1 n α ∗ [ y i ∗ ( W T x i + b ) − 1 ] L(\alpha,\omega,b)=\frac{1}{2}||\omega||^{2}-\sum_{i=1}^{n}\alpha*[y_{i}*(W^{T} x^i+b)-1] L(α,ω,b)=21ω2i=1nα[yi(WTxi+b)1]

∂ L ∂ ω = 0 \frac {\partial L}{\partial \omega}=0 ωL=0
可以得到:
ω = ∑ i = 1 n α i ∗ x i ∗ y i \omega=\sum_{i=1}^{n}\alpha_{i}*x_{i}*y_{i} ω=i=1nαixiyi

∂ L ∂ b = 0 \frac {\partial L}{\partial b}=0 bL=0
可以得到:
∑ i = 1 n α i ∗ y i = 0 \sum_{i=1}^{n}\alpha_{i}*y_{i}=0 i=1nαiyi=0
将这两个值分别带入到拉格朗日函数L中,得
L ( α , ω , b ) = ∑ i = 1 n α i − 1 2 ∗ ∑ i = 1 n α i α j y i y j x T x j L(\alpha,\omega,b)=\sum_{i=1}^{n}\alpha_{i}-\frac{1}{2}*\sum_{i=1}^{n}\alpha_{i}\alpha_{j}y_{i}y_{j}x^Tx_{j} L(α,ω,b)=i=1nαi21i=1nαiαjyiyjxTxj
然后解得一个最优解α之后分别可以求出对应的w和b.

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值