广义线性回归

最新推荐文章于 2023-07-04 18:01:51 发布

董洞洞同学

最新推荐文章于 2023-07-04 18:01:51 发布

阅读量565

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/weixin_44356316/article/details/106691737

版权

深度学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

1.感知机

学习来源《统计学习方法（第2版）》第2章

1.1 模型

符号函数：
$sign(x)=\left\{ \begin{aligned} +1& , & x \geqslant 0\\ -1 & , & x < 0 \end{aligned} \right. \tag{1}$

感知机：
$\cdot x +b)=\left\{ \begin{aligned} +1&,&w\cdot x +b \geqslant 0\\ -1&,& w\cdot x+b < 0 \end{aligned} \right. \tag{2}$
其中， $w=(w_1,w_2,...,w_n), x = (x_1, x_2, ..., x_n)^T$
感知机几何解释：
线性方程 $\cdot x + b$ 对应一个超平面 $S$ , $w$ 是超平面的法向量， $b$ 是超平面的截距。

1.2 损失函数

单个误分类点到分离超平面的距离：
$-\frac{1}{||w||}y_i(w\cdot x_i+b) \tag{3}$
所有误分类点到分离超平面的距离：
$-\frac{1}{||w||}\sum_{x_i \in M}y_i(w \cdot x_i + b) \tag{4}$
损失函数：
$L(w,b)=-\sum_{x_i \in M}y_i(w \cdot x_i + b) \tag{5}$

1.3 算法

需要找到一组合适的 $w, b$ ，因此求导：
$\begin{aligned} \nabla_w L(w,b)&=-\sum_{x_i \in M}y_ix_i \\ \nabla_b L(w,b)&=-\sum_{x_i \in M} y_i \end{aligned} \tag{6}$
更新：
$\begin{aligned} w&\leftarrow w + \eta y_ix_i \\ b &\leftarrow b + \eta y_i \end{aligned} \tag{7}$
注意：不是一次使所有的误分类点梯度下降，而是一次随机选取一个误分类点使其梯度下降

1.3.1 算法1

(1).选取初值 $w_0,b_0$ ;
(2).训练集中校验样本点；
(3).如果 $y_i(w\cdot x_i + b) \leqslant 0$ ，说明是该样本点是误分类点，执行更新步骤；
(4).转至(2)，直到数据集中没有误分类点

1.3.2 算法2（对偶形式）

算法2是对算法1的改进。当 $w_0=0，b_0=0$ 时，原更新方程变成：
$\begin{aligned} w &\leftarrow \eta y_i x_i \\ b &\leftarrow \eta y_i \end{aligned} \tag{8}$
设修改 $n$ 次， $w, b$ 可以表示为 $\alpha_iy_ix_i$ 和 $\alpha_iy_i$ ，其中 $\alpha_i=n_i\eta$ 。 $\eta$ 是学习率， $i$ 是实例的编号。当 $\eta=1$ 时， $\alpha_i=n_i$ 表示第 $i$ 个实例点由于误分而更新的次数。于是，最后学习到的 $w, b$ 可以表示为：
$\begin{aligned} w=&\sum_{i=1}^{N}\alpha_iy_ix_i \\ b=&\sum_{i=1}^{N} \alpha_i y_i \end{aligned} \tag{9}$
归纳一下算法2：
(1). $\alpha \leftarrow 0,b \leftarrow 0$ ；
(2).数据集遍历数据；
(3).如果 $y_i(\sum_{j=1}^N\alpha_jy_jx_j\cdot x_i +b)\leqslant 0$ ，更新
$\begin{aligned} \alpha_i &\leftarrow \alpha_i +\eta \\ b &\leftarrow b +\eta y_i \end{aligned} \tag{10}$
(4).转至(2)，直至数据集中没有误分类点
注意：步骤(3)的 $y_i(\sum_{j=1}^N\alpha_jy_jx_j \cdot x_i+b) \leqslant 0$ 中，只有 $\alpha_i,b$ 未知， $x_i,y_i),(x_j,y_j)$ 均已知。所以需要对 $\alpha_i,b$ 更新， $b$ 更新与算法1相同，如何更新 $\alpha_i$ 呢？查看 $\alpha_i$ 的定义， $\alpha_i=n_i\eta$ 。eg. $n_2=3$ 表示第 $2$ 个实例点，误分了 $3$ 次，因此 $\alpha_2=\eta + \eta + \eta$ 。所以更新方程要定义为 $\alpha_i \leftarrow \alpha_i +\eta$

1.4 总结

缺点：
(1).无法解决非线性；
(2).初值以及误分类点的选择不同，得到不同的分离超平面

2.SVM

学习来源《统计学习方法（第2版）》第7章

2.1 建模

单个样本点到超平面的函数间隔：
$\hat{\gamma_i}=y_i(w\cdot x_i+b) \tag{11}$
取所有样本点函数间隔最小的，把它作为整个数据集的函数间隔：
$\hat{\gamma}=\min_{i=1,2,...,N} \hat{\gamma_i} \tag{12}$
由于成倍地扩大或者缩小 $w, b$ 会改变函数间隔，因此引入几何间隔：
$\gamma_i =y_i(\frac{w}{||w||}\cdot x_i+\frac{b}{||w||}) \tag{13}$
整个数据集的几何间隔：
$\gamma=\min_{i=1,2,...,N}\gamma_i \tag{14}$

对这个分类问题建模以后，需要最大化间隔。因为间隔越大，被认为确信度越大：
$\begin{aligned} \max_{w,b}\ \ \ &\gamma \\ s.t.\ \ \ &y_i(\frac{w}{||w||}\cdot x_i+\frac{b}{||w||})\geqslant \gamma,&i=1,2,...,N \end{aligned} \tag{15}$
函数间隔和几何间隔存在关系 $\gamma=\frac{\hat{\gamma}}{||w||}$ 代入公式（15）：
$\begin{aligned} \max_{w,b}\ \ \ &\frac{\hat{\gamma}}{||w||} \\ s.t.\ \ \ &y_i(w\cdot x_i + b) \geqslant \hat{\gamma},&i=1,2,...,N \end{aligned} \tag{16}$
令 $\hat{\gamma}=1$ ，不影响最后的解。同时，求最大化的 $\frac{1}{||w||}$ 和求最小化的 $\frac{1}{2}||w||^2$ 问题等价，原问题变成：
$\begin{aligned} \min_{w,b} \ \ \ &\frac{1}{2}||w||^2 \\ s.t. \ \ \ &y_i(w\cdot x_i+b)-1 \geqslant 0,&i=1,2,...,N \end{aligned} \tag{17}$
这是一个凸二次规划问题。

2.2 解方程

2.2.1 推导

无法直接求解式（17），将原始问题转变成对偶问题：
(1).构建拉格朗日函数：
$\begin{aligned} L(w,b,\alpha)=&\frac{1}{2}||w||^2-\sum_{i=1}^N\alpha_i(y_i(w \cdot x_i+b)-1)\\ =&\frac{1}{2}||w||^2-\sum_{i=1}^N\alpha_iy_i(w\cdot x_i +b)+\sum_{i=1}^N\alpha_i \end{aligned} \tag{18}$
即原问题可描述成极大极小问题：
$\max_{\alpha} \min_{w,b} L(w,b,\alpha) \tag{19}$
(2).求极小：
求偏导
$\begin{aligned} \nabla_w L(w,b,\alpha)=&w-\sum_{i=1}^N \alpha_i y_i c_i=0 \\ \nabla_b L(w,b,\alpha)=&-\sum_{i=1}^N \alpha_i y_i = 0 \end{aligned} \tag{20}$
即：
$\begin{aligned} w=&\sum_{i=1}^N \alpha_iy_ix_i \\ &\sum_{i=1}^N \alpha_i y_i =0 \end{aligned} \tag{21}$
将(21)代入(18)中：
$\begin{aligned} L(w,b,\alpha)=&\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i \cdot x_j)-\sum_{i=1}^N\alpha_iy_i((\sum_{i=1}^N\alpha_jy_jx_j) \cdot x_i + b)+\sum_{i=1}^N\alpha_i \\ =&-\frac{1}{2}\sum_{i=1}^N\sum_{i=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)+\sum_{i=1}^N\alpha_i \end{aligned} \tag{22}$
(3).求极大
$\begin{aligned} \max_{\alpha}\ \ \ &-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N \alpha_i \alpha_j y_i y_j(x_i \cdot x_j) + \sum_{i=1}^N\alpha_i \\ s.t. \ \ \ &\sum_{i=1}^N \alpha_iy_i=0 \\ &\alpha_i \geqslant0,i=1,2,...,N \end{aligned} \tag{23}$
将求极大转变成求极小：
$\begin{aligned} \min_{\alpha}\ \ \ &\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N \alpha_i \alpha_j y_i y_j(x_i \cdot x_j)-\sum_{i=1}^N\alpha_i \\ s.t.\ \ \ &\sum_{i=1}^N\alpha_iy_i=0 \\ &\alpha_i \geqslant0,i=1,2,...,N \end{aligned} \tag{24}$

2.2.2 线性可分支持向量机算法

(1).构造并求解约束最优化问题：
$\begin{aligned} \min_{\alpha}\ \ \ &\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N \alpha_i \alpha_jy_i y_j(x_i \cdot x_j)-\sum_{i=1}^N\alpha_i \\ s.t.\ \ \ &\sum_{i=1}^N\alpha_iy_i=0 \\ &\alpha_i \geqslant0,i=1,2,...,N \end{aligned} \tag{25}$
求得最优解 $\alpha^*=(\alpha_{1}^*,\alpha_{2}^*,...,\alpha_{N}^*)^T$
(2).计算
$\begin{aligned} w^*=\sum_{i=1}^N\alpha_i^*y_ix_i \end{aligned} \tag{26}$
并选择 $\alpha^*$ 的一个正分量 $\alpha_{j}^*>0$ ，计算
$b^*=y_j-\sum_{i=1}^N\alpha_{i}^*y_i(x_i \cdot x_j) \tag{27}$
(3).求得分离超平面：
$w^* \cdot x +b^* = 0 \tag{28}$
分类决策函数：
$f(x)=sign(w^*\cdot x+b^*) \tag{29}$