机器学习之SVM详细推导及源码

本文链接：https://blog.csdn.net/yj19961126/article/details/109480238

求解二次规划问题

标准形式：
$min\frac{1}{2}x^TPx+q^Tx$
注意：p为对称矩阵，x是列向量

示例：
$\frac{1}{2} \begin{bmatrix} x_1&x_2\\ \end{bmatrix} \begin{bmatrix} a&b\\ b&d\\ \end{bmatrix} \begin{bmatrix} x_1\\ x_2\\ \end{bmatrix}= \frac{1}{2} (ax_1^2+dx_2^2+2bx_1x_2)$

$min x_1^2+x_2^2+x_1x_2+2x_1+x_2$

$s.t.x_i≥0，i=1,2$

$\sum_{i=1}^2x_i=1$

因此，由
$x_1^2+x_2^2+x_1x_2$

$\begin{cases} \frac{1}{2}a=1 \\ \frac{1}{2}d=1 \\ \frac{1}{2}*2*b=1 \end{cases}$

推出
$\begin{bmatrix} 2&1\\ 1&2\\ \end{bmatrix}$
由
$2x_1+x_2$
推出
$\begin{bmatrix} 2\\ 1\\ \end{bmatrix}$
将约束条件转化为标准形式
$s.t.-x_i≤0，i=1,2$

$\sum_{i=1}^2x_i=1$

推出：
$\begin{bmatrix} -1&0\\ 0&-1\\ \end{bmatrix}$

$\begin{bmatrix} 0\\ 0\\ \end{bmatrix}$

$\begin{bmatrix} 1&1\\ \end{bmatrix}$

$b = 1$

求解二次规划问题，可通过：cvxopt.solvers.qp(P,q,G,h,A,b)来进行求解。
$\begin{bmatrix} 2&1\\ 1&2\\ \end{bmatrix}, q= \begin{bmatrix} 2\\ 1\\ \end{bmatrix}, G= \begin{bmatrix} -1&0\\ 0&-1\\ \end{bmatrix}, h= \begin{bmatrix} 0\\ 0\\ \end{bmatrix}, A= \begin{bmatrix} 1&1\\ \end{bmatrix}, b=1$

支持向量机

线性方程：
$\omega^Tx+b=0$
其中，法向量
$\omega=(\omega_1;\omega_2;\omega_3;…;\omega_d)$
b为截距

补充：点到直线的距离公式：
$|\frac{Ax_0+By_0+c}{\sqrt(A^2+B^2)}|$
样本空间中任意点x到超平面(w,b)的距离为：
$r=\frac{|\omega^Tx+b|}{||\omega||}$
训练样本正确分类为：
$\begin{cases} \omega^Tx_i+b≥+1，y_i=+1\\ \omega^Tx_i+b≤-1，y_i=-1 \end{cases}$
间隔：
$\gamma=\frac{2}{||\omega||}$

在这里插入图片描述

要找最大间隔，找到约束的参数w和b，就要y最大
$\max_{\omega,b}\frac{2}{||\omega||}$

$s.t.y_i(\omega^Tx_i+b)≥1，i=1,2,…，m$

为了最大化间隔，最大化||w||^{-1,等价于最小化||w||}2,
$\min_{\omega,b}\frac{1}{2}||\omega||^2$

$y_i(\omega^Tx_i+b)≥1，i=1,2,…，m$

综上：我们所要求的目标为w和b

求解上述问题，需要求解上述公式

对偶问题

上述公式为凸二次规划问题，需使用拉格朗日乘数法求得对偶问题，拉格朗日函数
$L(\omega,b,\alpha)=\frac{1}{2}||\omega||^2+\sum_{i=1}^m\alpha_i(1-y_i(\omega^Tx_i+b))$
其中
$\alpha=(\alpha_1;\alpha_2;…;\alpha_m)$

$||\omega||^2=\omega^T\omega$

令L(w,b,a)对w和b的偏导为零可得
$\omega=\sum_{i=1}^m\alpha_iy_ix_i$

$0=\sum_{i=1}^m\alpha_iy_i$

将求导后的公式带入拉格朗日函数
$\frac{1}{2}||\omega||^2 \\ =\frac{1}{2}\omega^T\omega \\ =\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_jy_iy_jx_i^Tx_j$

$\sum_{i=1}^m[\alpha_i-\alpha_iy_i(\sum_{j=1}^m\alpha_jy_jx_i^Tx_j+b)] \\ =\sum_{i=1}^m\alpha_i-\sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_jy_iy_jx_i^Tx_j-b\sum_{i=1}^m\alpha_iy_i \\ =\sum_{i=1}^m\alpha_i-\sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_jy_iy_jx_i^Tx_j$

得到对偶问题
$\max_\alpha\sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_jy_iy_jx_i^Tx_j$

$s.t.\sum_{i=1}^m\alpha_iy_i=0,\\ 0≤\alpha_i≤C，i=1,2,…,m$

求解出二次规划问题后，会解出a，再通过a，求得w和b

求解a，w，b

根据上述二次规划问题求解，可得出

solvers.qp(p, q, G, h, A, b)   # 求解二次规划问题

# p
y = np.eye(n)                   # 对角矩阵 n*n，对角线全为1
y = label_y * y                 #
p = np.dot(train_x, train_x.T)
p = np.dot(y,p)
p = np.dot(p,y)
p = matrix(p)

# q
q = matrix(-1 * np.ones(n))

# αi ≤ c
# αi ≥ 0 → -αi ≤ 0
# G
G1 = np.eye(n)  #  对角矩阵
G2 = -1 * np.eye(n)  # -x<=0
G = matrix(np.vstack([G1,G2]))

# h
h1 = np.full([n, 1], c)
h2 = np.zeros([n, 1])
h = matrix(np.vstack( [h1,h2] ))

# A  →  yi
A = matrix(label_y.reshape([1, n]))

# b  →  0
b = matrix(0.0)

# 求出α
sol = solvers.qp(p, q, G, h, A, b)   # 求解二次规划问题
alpha = np.array(sol['x'])

求解的a后，再求解w
$\omega=\sum_{i=1}^m\alpha_iy_ix_i$

# 2、求w, 法向量
w = alpha * label_y * train_x
w = np.sum(w, axis=0)

求的w后，再求解b
$b=y_i-\sum_{j:\alpha_i>0}\alpha_jy_jx_i^Tx_j$

# 3、求b
b = label_y[index].T - np.dot(w ,train_x[index].T)  # 1 * index
b = np.mean(b)

映射到高维空间，后模型为
$f(x)=\omega^T\phi(x)+b$
对偶问题为
$\max_\alpha\sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_jy_iy_j\phi(x_i)^T\phi(x_j)$

$s.t.\sum_{i=1}^m\alpha_iy_i=0,\\ 0≤\alpha_i≤C，i=1,2,…,m$

其中，内积的形式
$\phi(x_i)^T\phi(x_j)\\ =\langle \phi(x_i)^T,\phi(x_j) \rangle \\ =k(x_i,x_j)$
对偶问题重写为
$\max_\alpha\sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_jy_iy_jk(x_i,x_j)$

$s.t.\sum_{i=1}^m\alpha_iy_i=0,\\ 0≤\alpha_i≤C，i=1,2,…,m$

k(.,.)为核函数

预测

求得w和b后，保存，放入公式

test_res = np.dot(w, text_x.T) + b

判断结果是否大于0

test_res[test_res > 0] = 1
test_res[test_res < 0] = -1