分类 Classification

最新推荐文章于 2022-07-26 22:19:03 发布

最新推荐文章于 2022-07-26 22:19:03 发布

阅读量382

点赞数

分类专栏：机器学习文章标签：机器学习分类算法

本文链接：https://blog.csdn.net/weixin_45884316/article/details/120538554

版权

机器学习专栏收录该内容

36 篇文章 24 订阅

订阅专栏

文章目录

前置知识

点到平面距离

最大似然估计

”似然”：likelihood 可能性。
最大似然法，一种求解概率模型参数的方法。
最早是遗传学家以及统计学家罗纳德·费雪在1912年至1922年间开始使用。

训练集的矩阵表示

假设训练集的特征部分记为 $n\times (d+1)$ 矩阵 $X$ ，其中最后一列取值全为1.标签部分记为 $y$ ，参数记为 $w$ ：
$\widehat{\boldsymbol{y}}=\mathbf{X} \mathbf{w}$

感知机（Perceptron）

假设 $f(\boldsymbol{x})=\mathbf{w}^{\mathrm{T}} \boldsymbol{x}$ ，系数 $\mathbf{w}=\left(\mathrm{w}_{1}, \mathrm{w}_{2}, \ldots, \mathrm{w}_{\mathrm{d}}, \mathrm{w}_{0}\right)^{\mathrm{T}}$ ，模型为：
$y=H(f(x))=\left\{\begin{array}{ll} +1, & \mathbf{w}^{\mathrm{T}} \boldsymbol{x}>0 \\ -1, & \mathbf{w}^{\mathrm{T}} \boldsymbol{x} \leq 0 \end{array}\right.$

令 $f (x) = 0$ ，可以得到决策超平面 $\mathbf{w}^{\mathrm{T}} \boldsymbol{x}=0$

有 $n$ 个训练样本，线性可分数据集 $\mathrm{D}=\left\{\left(\boldsymbol{x}_{1}, y_{1}\right), \ldots,\left(\boldsymbol{x}_{\mathrm{n}}, y_{\mathrm{n}}\right)\right\}$ ，点 $x_i,y_i$ 到决策超平面的距离为（不妨令 $\|\mathbf{w}\|\ _2=1$ ）：
$d_{i}=\frac{\left|\mathbf{w}^{\mathrm{T}} \boldsymbol{x}_{\boldsymbol{i}}\right|}{\|\mathbf{w}\|_{\mathbf{2}}}=\frac{y_{i} \mathbf{w}^{\mathrm{T}} \boldsymbol{x}_{\boldsymbol{i}}}{\|\mathbf{w}\|_{\mathbf{2}}} \rightarrow y_{i} \mathbf{w}^{\mathrm{T}} \boldsymbol{x}_{\boldsymbol{i}}$
优化目标是：误分类样本离超平面距离之和最小

目标函数： $\mathrm{L}(\mathbf{w})=-\sum_{i \in M} y_{i} \mathbf{w}^{\mathrm{T}} \boldsymbol{x}_{\boldsymbol{i}}$ ， $M$ 为误分类样本集合 $\left\{j \mid y_{j} \mathbf{w}^{\mathrm{T}} \boldsymbol{x}_{\boldsymbol{j}}<0\right\}$ ，

严格来说，在 $f (x) = 0$ 处不可微，是没有梯度的，所以用次梯度来解决。

梯度： $\nabla \mathrm{L}(\mathbf{w})=-\sum_{i \in M} y_{i} \boldsymbol{x}_{\boldsymbol{i}}$

梯度下降法（GD）：
$\mathbf{w}^{(t+1)} \leftarrow \mathbf{w}^{(t)}+\eta_{t} \sum_{i \in M} y_{i} \boldsymbol{x}_{\boldsymbol{i}}$
随机梯度下降法（SGD）：
$\mathbf{w}^{(t+1)} \leftarrow \mathbf{w}^{(t)}+\eta_{t} y_{i} \boldsymbol{x}_{\boldsymbol{i}}$
感知机算法过程：

支持向量机（Support Vector Machines）

线性可分训练集 $\mathrm{D}=\left\{\left(\boldsymbol{x}_{1}, y_{1}\right), \ldots,\left(\boldsymbol{x}_{\mathrm{n}}, y_{\mathrm{n}}\right)\right\}$ ，点 $\left(\boldsymbol{x}_{i}, y_{i}\right)$ 到决策超平面的距离 $d_{i}=\frac{y_{i} \mathbf{w}^{\mathrm{T}} \boldsymbol{x}_{\boldsymbol{i}}}{\|\mathbf{w}\|_{2}}$ ，我们的目标是让整个数据集离超平面越远越好，也就是让所有点中最近的点的距离最大：
$\max _{\mathbf{w}} \min _{i} \frac{y_{i} \mathbf{w}^{\mathrm{T}} \boldsymbol{x}_{\boldsymbol{i}}}{\|\mathbf{w}\|_{2}} \Leftrightarrow \max _{\mathbf{w}} \frac{1}{\|\mathbf{w}\|_{2}} \min _{i} y_{i} \mathbf{w}^{\mathrm{T}} x_{i}$
$y_{i} \mathbf{w}^{\mathrm{T}} \boldsymbol{x}_{\boldsymbol{i}}$ 相当于直线的系数，所以不妨令 $\min _{i} y_{i} \mathbf{w}^{\mathrm{T}} \boldsymbol{x}_{\boldsymbol{i}}=1$ ，则：
$\max _{\mathbf{w}} \frac{1}{\|\mathbf{w}\|_{2}} \Leftrightarrow \min _{\mathbf{w}} \frac{1}{2}\|\mathbf{w}\|_{2}^{2} \tag{1}$
因为假设了 $\min _{i} y_{i} \mathbf{w}^{\mathrm{T}} \boldsymbol{x}_{\boldsymbol{i}}=1$ ，那么对于训练集任意样本需满足 $y_{i} \mathbf{w}^{\mathrm{T}} \boldsymbol{x}_{\boldsymbol{i}} \geq 1$ ，对于不满足上述条件样本的损失函数定义为$1-y_{i} \mathbf{w}^{\mathrm{T}} \boldsymbol{x}_{\boldsymbol{i}} $，则样本损失为合页损失（hinge loss）：
$\mathrm{L}\left(y_{i}, f\left(\boldsymbol{x}_{\boldsymbol{i}}\right)\right)=\max \left(0,1-y_{i} \mathbf{w}^{\mathrm{T}} \boldsymbol{x}_{\boldsymbol{i}}\right) \tag{2}$

为什么叫合页损失呢？如下配图：

所以，(1)(2)两个优化目标得到的目标函数：
$\mathrm{L}(\mathbf{w})=\frac{\lambda}{2}\|\mathbf{w}\|_{2}^{2}+\sum_{i=1}^{n} \max \left(0,1-y_{i} \mathbf{w}^{\mathrm{T}} \boldsymbol{x}_{i}\right)$
其中， $\lambda$ 是超参数，用来平衡两个优化目标

记不满足约束的样本集 $M=\left\{j \mid y_{j} \mathbf{w}^{\mathrm{T}} \boldsymbol{x}_{\boldsymbol{j}}<1\right\}$ ，那么梯度为：
$\nabla \mathrm{L}(\mathbf{w})=\lambda \mathbf{w}-\sum_{i \in M} y_{i} \boldsymbol{x}_{i}$
梯度下降法：
$\mathbf{w}^{(t+1)} \leftarrow \mathbf{w}^{(t)}-\eta_{t}\left(\lambda \mathbf{w}^{(t)}-\sum_{i \in M} y_{i} \boldsymbol{x}_{i}\right)$
随机梯度下降法：
$\mathbf{w}^{(t+1)} \leftarrow \mathbf{w}^{(t)}-\eta_{t}\left(\lambda \mathbf{w}^{(t)}-\mathrm{I}(i \in M) y_{i} \boldsymbol{x}_{i}\right)$
上面的算法是软间隔的SVM，如果是非线性的，使用映射的方法，从低维映射到高维。在高维会有维度灾难的问题，但是计算量还是低维的计算量。SVM没有很好解决的问题：怎么从低维映射到高维。

核方法与核函数

核方法的基本原理是把原坐标系里线性不可分的数据使用核函数（Kernel）投影到另一个空间，尽量使得数据在新的空间里线性可分。

核函数的引入避免了“维数灾难”，大大减小了计算量。而输入空间的维数 $n$ 对核函数矩阵无影响，因此，核函数方法可以有效处理高维输入。
无需知道非线性变换函数的形式和参数。
核函数的形式和参数的变化会隐式改变从输入空间到特征空间的映射，进而对特征空间的性质产生影响，最终改变各种核函数方法的性能。
核函数方法可以和不同的算法相结合，形成多种不同的基于核函数技术的方法，且这两部分的设计可以单独进行，并可以为不同的应用选择不同的核函数和算法。

具体地，特征 $X_i$ 和 $X_j$ 在新空间中的内积可以由核函数 $k\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)$ 计算得到。

多项式核: $k\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)=\left(x_{i}^{\mathrm{T}} \boldsymbol{x}_{j}+r\right)^{d}$ , $d$ 为次数, $r$ 为截距项
拉普拉斯核: $k\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right) =\exp \left(-\frac{\left\|x_{i}-x_{j}\right\|}{\delta}\right)$ , $\delta>0 $
高斯核： $k\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)=\exp \left(-\frac{\left\|x_{i}-x_{j}\right\|^{2}}{2 \delta^{2}}\right)$ ， $\delta>0$ 为窗宽

Sigmoid核（Fisher核）: $k\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)=\tanh \left(\beta x_{i}^{\mathrm{T}} x_{j}+\theta\right)$ , $\beta>0$ , $\theta<0 $

逻辑回归（Logistic Regression）

假设 $f(\boldsymbol{x})=\mathbf{w}^{\mathrm{T}} \boldsymbol{x}$ ，系数 $\mathbf{w}=\left(\mathrm{w}_{1}, \mathrm{w}_{2}, \ldots, \mathrm{w}_{\mathrm{d}}, \mathrm{w}_{0}\right)^{\mathrm{T}}$ ，训练集 $D=\left\{\boldsymbol{x}_{i}, y_{i}\right\}_{i=1}^{n}, y \in\{-1,1\}$ ，概率的解释：
$\mid \boldsymbol{x})=\frac{1}{1+e^{-\mathrm{w}^{\mathrm{T}} x}} \tag{1} \\$

$\mid \boldsymbol{x})=1-p(y=1 \mid \boldsymbol{x})= \frac{1}{1+e^{\mathrm{w}^{\mathrm{T}}x}} \tag{2}$

类似sigmoid函数，(1)式代表样本是正的概率，(2)式代表样本是负的概率，结合$ y \in{-1,1} $，加入$ y $后，样本$ (\boldsymbol{x}{1}, y{1})$的概率为：
$p\left(y_{i} \mid \boldsymbol{x}_{i}\right)=\frac{1}{1+e^{-y_{i} \mathbf{w}^{\mathrm{T}} x_{i}}}$
这时，我们想到最大似然估计，把每一个概率连乘，得到似然函数为：
$\mathrm{L}(\mathbf{w})=\prod_{i=1}^{n} p\left(y_{i} \mid \boldsymbol{x}_{i}\right)=\prod_{i=1}^{n} \frac{1}{1+e^{-y_{i} w^{\mathrm{T}} x_{i}}}$
为了便于计算，取对数，将乘法变为加法，负对数似然函数为：
$\operatorname{NLL}(\mathbf{w})=\sum_{i=1}^{n} \ln \left(1+e^{-y_{i} \mathbf{w}^{\mathrm{T}} x_{i}}\right)$
梯度为：
$\mathbf{w}^{(t+1)} \leftarrow \mathbf{w}^{(t)}+\eta_{t} \sum_{i=1}^{n} \frac{y_{i} \boldsymbol{x}_{i}}{1+e^{y_{i} \mathbf{w}^{\mathrm{T}} \boldsymbol{x}_{i}}}$
随机梯度下降法：
$\mathbf{w}^{(t+1)} \leftarrow \mathbf{w}^{(t)}+\eta_{t} \sum_{i=1}^{n} \frac{y_{i} \boldsymbol{x}_{i}}{1+e^{y_{i} \mathbf{w}^{\mathrm{T}} \boldsymbol{x}_{i}}}$