多分类器：KNN，SVM，Softmax，2-Layer-Affine-Net（以图像分类为例子）

最新推荐文章于 2022-04-08 12:16:13 发布

CSJ_CH3COOK

最新推荐文章于 2022-04-08 12:16:13 发布

阅读量1.6k

点赞数 4

分类专栏：自然语言处理 Stanford CS224N 文章标签：神经网络算法机器学习深度学习分类算法

本文链接：https://blog.csdn.net/weixin_44618103/article/details/104578069

版权

自然语言处理 Stanford CS224N 专栏收录该内容

4 篇文章 1 订阅

订阅专栏

多分类器：KNN，SVM，Softmax，2-Layer-Affine-Net（以图像分类为例子）

记录一下 CS 231N 计算机视觉这门课所提到的一些基础分类器，结合机器学习中学到的二元分类器算法，并以 CIFAR 10 作为训练集测试多分类器性能。

KNN K近邻分类

主要思路：寻找训练集到测试集中最相似的 $k$ 个图像（距离由矩阵二范数、或是 $F r o b i n u s$ 范数表示），并由 $k$ 个最优结果投票决定其标签。

算法流程：

训练集导入 $X$ 与标签 $y$
测试集输入 $\hat x$ ，找到 $X$ 中与 $\hat x$ 距离最近的 $k$ 个图像： $\chi = \{\tilde X_1,\cdots, \tilde X_k\}$ （一般用二范数距离）
对标签进行计数： $\eta = \{(\tilde X_1, \tilde y^{(1)}),\cdots, (\tilde X_k, \tilde y^{(p)})\}$
找到 $\eta$ 中出现次数最多的 $\tilde y^{(i)}$ ，即为这次分类的结果。

**图像分类结果：**对 $C I F A R - 10$ 这个数据集上选取不同 $k$ 值进行五折 $J a c k k n i f e$ 交叉验证总体准确度在 $27\%$ 左右。

在这里插入图片描述

SVM 支持向量机

支持向量机依赖于凸集分离定理，即：两个不相交凸集之间可以用超平面分离。但训练集中的数据通常不是凸集。

二元支持向量机

二元支持向量机的最优化问题的拉格朗日函数为：（最后为正则项）
$a)=\frac{1}{2}\|w\|^2-\frac{1}{2}\sum_i^N a_iy_i(w^Tx_i-b)+\sum_i a_i$
最优化如上函数，得到最优解 $w$ 。这里的 $w$ 可以单位化为 $w=\frac{w}{\|w\|}$ ，实际上等价于：
$a)=-\frac{1}{2}\sum_i^N a_iy_i(w^Tx_i-b)+\sum_i a_i$

多元支持向量机

多元支持向量机相当于每个第 $i$ 类与非 $i$ 类之间进行支持向量机的划分。假设总供 $m$ 个组别，则在多分类问题中，相当于建立了 $m$ 个互相独立的支持向量机模型。 $W\in \R^{m*n}$ 为一个权重矩阵， $Wx,x\in \R^n$ 内积输出的结果为一个向量，分别表示对每个类别的评分。

$N$ 元支持向量机对训练集的一个元素 $x_i$ 的损失函数为：（ $j$ 代表类别， $s_j$ 表示对第 $j$ 个组别上的评分， $s_{y_i}$ 表示训练集在第 $j$ 个支持向量机空间内的标签 ( $- 1$ or $1$ )）即表明这一分类在不属于第 $y_i$ 个分类的支持向量机空间下的重错分的分数。
$L_i = \sum_{j\ne y_i}\max(0, s_j-s_{y_i}+1)$
整个损失函数为：（这里省略正则项，也省略了惩罚项的系数）这里的损失函数实际上也可以定义为 $max(0, s_j-s_{y_i}+1)^2$ ，取决于对误差的容忍性。
$L=\sum_{i}L_i = \sum_i\sum_{j\ne y_i}\max(0, s_j-s_{y_i}+1)$
如果分类正确， $s_j-s_{y_i}+1<0$ 整个损失函数就为 $0$ ，如果全部分类均不正确，则损失函数理论上能够达到正无穷。

在这里插入图片描述

交叉验证结果分析：准确率 0.379000，较 $K N N$ 来说有更好的泛化能力。权重矩阵比较模糊。

Softmax 分类器

又称（多分类逻辑回归模型）。对于二元逻辑回归问题，对于一个输入给出的输出 $\hat y$ 是一个概率。
$\hat Y = \frac{\exp(w^Tx)}{1+\exp(w^Tx)}\in [0, 1)$
在二元逻辑回归中，实际上这个函数可以写为：
$\hat Y = \frac{\exp(w^Tx)}{\exp(0)+\exp(w^Tx)}\in [0, 1)$
实际上 $\frac{\exp(0)}{\exp(0)+exp(w^Tx)}$ 是取 $0$ 的概率，而原本输出的 $\hat Y$ 表示属于 $1$ 类的概率，这个函数具有非常好的二元性。将其扩展到所有 $m$ 个类别，输出是一个 $m$ 维向量，因此公式如下：
$P(Y=k|X=x_i)=\frac{\exp(Wx_i)}{\sum_j^m \exp((Wx_i)_j)}\in \R^{m}$
与二元逻辑回归的损失函数相同，多分类逻辑回归的损失函数如果用最小二乘定义的话，会是一个非凸的函数，不利于求解。这里使用的是最大似然估计的方法：
$L_i=-\log P(Y=y_i|X=x_i)$
十折交叉验证准确率：

lr 1.000000e-07 reg 2.500000e+04 train accuracy: 0.348837 val accuracy: 0.365000
lr 1.000000e-07 reg 5.000000e+04 train accuracy: 0.330980 val accuracy: 0.342000
lr 5.000000e-07 reg 2.500000e+04 train accuracy: 0.349531 val accuracy: 0.363000
lr 5.000000e-07 reg 5.000000e+04 train accuracy: 0.333429 val accuracy: 0.351000
best validation accuracy achieved during cross-validation: 0.365000

在这里插入图片描述

图像上来说，这个权重矩阵好像比 $S V M$ 更清晰一点。

Two Layer Affine Network

神经网络的主要基础就是求解梯度的链式法则： $\frac{\partial f(g(x))}{\partial x}=\frac{\partial f}{\partial g}\frac{\partial g}{\partial x}$ ，以及向量值函数的梯度的求解。
$z\leftarrow f(.)\begin{cases}g_1\\g_2\\\vdots\\g_n\end{cases}\text{where: each } g_i(.)\begin{cases}x_1\\x_2\\\vdots\\x_n\end{cases}$
对于向量值函数的求导 $\frac{\partial g}{\partial x}$ ，我们最后得到的结果是一个 $J a c o b$ 矩阵，我在 凸优化 [1]：梯度与次梯度 这篇文章中写过。将整个 $J a c o b$ 矩阵记为 $\frac{\partial g}{\partial x} = J$ 。在这里最后总的梯度是 $J$ 与 $\frac{\partial f}{\partial g}=\nabla$ 的内积： $\frac{\partial f}{\partial x}=J\times \nabla$ 。

单层神经网络如支持向量机中的打分方式一样： $f = W x$ ，而双层神经网络如下：
$f=W_2\max(0, W_1x)$
这里对应的 $\max$ 针对每一个元素。、一般来说，如果两层的神经网络都是线性的，则最终这个神经网络的输出结果也是线性的（第二层相当于对第一层神经网络进行一个降秩操作），相当于一层神经网络。

这里用的是由两个仿射变换构成神经网络。分别为 $y_1 =W_1x+b_1$ 这是第一层神经网络， $y_2 = W_2y_1+b_2$ 这是第二层神经网络。其中 $W_1,W_2$ 全部初始化为服从正态分布的随机数构成的矩阵。

这里损失函数用 $s o f t m a x$ 函数来定义：（这里加上正则化）
$\begin{aligned}z &= W_2\max(0, W_1 x+b_1)+b_2\\L(W_1,W_2,b_1,b_2)&=\frac{1}{N}\log (softmax(z))+\alpha(\|W_1\|_{Fro}^2+\|W_2\|_{Fro}^2)\end{aligned}$
下降方法：对上式求导，进行随机梯度下降法。第一张图是损失函数，第二张图是准确率