机器学习算法笔记：线性分类

最新推荐文章于 2024-01-09 01:17:37 发布

xiaochengJF

最新推荐文章于 2024-01-09 01:17:37 发布

阅读量282

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_43711554/article/details/105550606

版权

机器学习专栏收录该内容

15 篇文章 1 订阅

订阅专栏

文章目录

线性分类

线性回归模型不能直接用于分类任务，但仅需要加入一层非线性激活函数即可用于分类，分类方式大致可分为硬分类和软分类：

硬分类

直接输出对应类别，这类模型的代表为：

线性判别分析（Fisher 判别）
感知机

软分类

产生不同类别的概率，根据概率方法的不同分大致为两种：

生成式（根据贝叶斯定理先计算参数后验，再进行推断）：高斯判别分析（GDA）和朴素贝叶斯(Naive Bayes)等为代表
判别式（直接对条件概率进行建模）：Logistic 回归

感知机算法

激活函数

以二分类为例，将线性回归的结果映射到对应的二分类结果上，激活函数可表示为以下形式：
$sign(a)=\left\{\begin{matrix}+1,a\ge0\\ -1,a\lt0\end{matrix}\right.$

损失函数

定义损失函数为错误分类的数目 $\mathbf{I}\{y_iw^Tx_i<0\}$ ，比较直观的方式是使用指示函数，但是指示函数不可导，因此可以定义：
$L(w)=\sum\limits_{x_i\in\mathcal{D}{wrong}}-y_iw^Tx_i$

其中， $\mathcal{D}{wrong}$ 是错误分类集合，采用梯度下降的算法训练，损失函数对 $w$ 的偏导为：
$\frac{\partial}{\partial w}L(w)=\sum\limits_{x_i\in\mathcal{D}{wrong}}-y_ix_i$

所以更新策略为：
$\begin{aligned} &w^{t+1}\leftarrow w^t - \lambda\nabla_wL\\ \Longrightarrow &w^{t+1}\leftarrow w^t + \lambda y_ix_i \end{aligned}$

注意：这里要求数据线性可分，而pocket算法可允许错分类点

线性判别分析 LDA

LDA(Linear Discriminant Analysis) 基本思想就是选定一个方向，将样本顺着该方向投影，投影后的数据需满足以下两个条件可较好地分类：

条件一：类内近。相同类内部的试验样本距离接近。
条件二：类间远。不同类别之间的距离较大。

假定原数据为向量 $x$ ，在 $w$ 方向投影： $z=w^T\cdot x=|w|\cdot|x|\cos\theta$

条件一：类内近

同类样本内部应该更接近（更紧凑），假设有两类的试验样本，其数量分别是 $N_1$ 和 $N_2$ ，那么采用方差矩阵表示每类内总体分布，用 $S$ 表示原数据的协方差： $\begin{aligned} C_1:Var_z[C_1]&=\frac{1}{N_1}\sum\limits_{i=1}^{N_1}(z_i-\overline{z_{c1}})(z_i-\overline{z_{c1}})^T\\ &=\frac{1}{N_1}\sum\limits_{i=1}^{N_1}(w^Tx_i-\frac{1}{N_1}\sum\limits_{j=1}^{N_1}w^Tx_j)(w^Tx_i-\frac{1}{N_1}\sum\limits_{j=1}^{N_1}w^Tx_j)^T\\ &=w^T\frac{1}{N_1}\sum\limits_{i=1}^{N_1}(x_i-\overline{x_{c1}})(x_i-\overline{x_{c1}})^Tw\\ &=w^TS_1w\\ C_2:Var_z[C_2] &=\frac{1}{N_2}\sum\limits_{i=1}^{N_2}(z_i-\overline{z_{c2}})(z_i-\overline{z_{c2}})^T\\ &=w^TS_2w \end{aligned}$

所以类内距离可以记为：
$\begin{aligned} Var_z[C_1]+Var_z[C_2]=w^T(S_1+S_2)w \end{aligned}$

条件二：类间远

不同类间隔越远越好，用均值差的平方（两个球距离的远近可用球心距离衡量）来表示：
$\begin{aligned} (\overline{z_{c1}}-\overline{z_{c2}})^2&=(\frac{1}{N_1}\sum\limits_{i=1}^{N_1}w^Tx_i-\frac{1}{N_2}\sum\limits_{i=1}^{N_2}w^Tx_i)^2\\ &=(w^T(\overline{x_{c1}}-\overline{x_{c2}}))^2\\ &=w^T(\overline{x_{c1}}-\overline{x_{c2}})(\overline{x_{c1}}-\overline{x_{c2}})^Tw \end{aligned}$

损失函数

综合两个条件，由于协方差是一个矩阵，将两者相除得到损失函数，并将其最大化：
$\begin{aligned} \hat{w}=\mathop{argmax}\limits_wJ(w)&=\mathop{argmax}\limits_w\frac{(\overline{z_{c1}}-\overline{z_{c2}})^2}{Var_z[C_1]+Var_z[C_2]}\\ &=\mathop{argmax}\limits_w\frac{w^T\overbrace{(\overline{x_{c1}}-\overline{x_{c2}})(\overline{x_{c1}}-\overline{x_{c2}})^T}^{\color{blue}S_b\text{类间方差}}w}{w^T\underbrace{(S_1+S_2)}_{\color{blue}S_w\text{类内方差}}w}\\ &=\mathop{argmax}\limits_w\frac{w^TS_bw}{w^TS_ww} \end{aligned}$

$w$ 只需要提供投影方向， $∣ ∣ w ∣ ∣$ 具体大小并不重要（求得方向后可令 $∣ ∣ w ∣ ∣ = 1$ 求得具体的 $w$ 值），对其求偏导，：
$\begin{aligned} &\frac{\partial}{\partial w}J(w)=2S_bw(w^TS_ww)^{-1}-2w^TS_bw(w^TS_ww)^{-2}S_ww=0\\ \Longrightarrow &S_bw\underbrace{(w^TS_ww)}_{\color{blue}\text{一维实数}}=\underbrace{(w^TS_bw)}_{\color{blue}\text{一维实数}}S_ww\\ \Longrightarrow &{\color{blue}w}\propto S_w^{-1}S_bw=S_w^{-1}(\overline{x_{c1}}-\overline{x_{c2}})\underbrace{(\overline{x_{c1}}-\overline{x_{c2}})^Tw}_{\color{blue}\text{一维实数}}\\ &\;\;\;\propto \underbrace{S_w^{-1}(\overline{x_{c1}}-\overline{x_{c2}}) }_{\color{blue}\text{投影方向}} \end{aligned}$

概率判别模型-Logistic 回归

很多时候需要得到某类别的概率（如：天气预报降水概率），那么输出应该是 $[0, 1]$ 区间内的值。对于二分类问题，对 $p (C ∣ x)$ 建模，根据用贝叶斯定理：
$p(C_1|x)=\frac{p(x|C_1)p(C_1)}{p(x|C_1)p(C_1)+p(x|C_2)p(C_2)}$

取 $a=\ln\frac{p(x|C_1)p(C_1)}{p(x|C_2)p(C_2)}$ ，于是：
$p(C_1|x)=\frac{1}{1+\exp(-a)}$

上式即 Logistic Sigmoid 函数，其参数表示了两类联合概率比值的对数。因此可以令： $a = w^Tx$ ，找到最佳参数 $w$ ，即可得到最佳Logistic 回归模型。

概率判别模型常用最大似然估计的方式来确定参数，对于一次观测，获得分类 $y$ 的概率为（假定 $C_1=1,C_2=0$ ）：
$p(y|x)=p_1^yp_0^{1-y}$

那么对于 $N$ 次独立全同观测 MLE为：
$\begin{aligned} \hat{w}=\mathop{argmax}\limits_wJ(w)&=\mathop{argmax}\limits_w\sum\limits_{i=1}^N(y_i\log p_1+(1-y_i)\log p_0) \\ &=\mathop{argmin}\limits_w\underbrace{\sum\limits_{i=1}^N-(y_i\log p_1+(1-y_i)\log p_0)}_{\color{blue} cross\ entropy} \end{aligned}$

由于有：
$p_1'=(\frac{1}{1+\exp(-a)})'=p_1(1-p_1)$

则对该表达式求导：
$J'(w)=\sum\limits_{i=1}^Ny_i(1-p_1)x_i-p_1x_i+y_ip_1x_i=\sum\limits_{i=1}^N(y_i-p_1)x_i$

上式无法直接求解，和感知机类似，也可以使用不同大小的批量随机梯度上升（对于最小化就是梯度下降）来得到函数极大值。

概率生成模型-高斯判别分析 GDA

生成模型用于分类其实就是对联合概率分布进行建模 $p(Y|X)\propto p(X|Y)p(Y)=p(X,Y)$ ，因为分类并不需要得到 $p (Y ∣ X)$ 具体值，分类只要比较大小即可。然后采用 MAP 来获得最佳参数，针对二分类情况，假设：

$y\sim Bernoulli(\phi)$
$x|y=1\sim\mathcal{N}(\mu_1,\Sigma)$
$x|y=0\sim\mathcal{N}(\mu_0,\Sigma)$

$l o g - l i k e l i h o o d$ 可表示为：
$\begin{aligned} &\mathcal{L}(\theta)=\log \prod^N_{i=1}p(x_i,y_i)\\ &=\sum\limits_{i=1}^N\log(p(x_i|y_i)\cdot p(y_i))\\ &=\sum\limits_{i=1}^N (\log p(x_i|y_i)+\log p(y_i))\\ &=\sum\limits_{i=1}^N(\log\mathcal{N}(\mu_0,\Sigma)^{1-y_i}+\log \mathcal{N}(\mu_1,\Sigma)^{y_i}+\log\phi^{y_i}(1-\phi)^{1-y_i}) \\ &=\underbrace{\sum\limits_{i=1}^N\log\mathcal{N}(\mu_0,\Sigma)^{1-y_i}}_{\color{blue}1}+\underbrace{\sum\limits_{i=1}^N\log \mathcal{N}(\mu_1,\Sigma)^{y_i}}_{\color{blue}2}+\underbrace{\sum\limits_{i=1}^N\log\phi^{y_i}(1-\phi)^{1-y_i}}_{\color{blue}3}\\ \color{blue}\Longrightarrow &\mathop{argmax}\limits_{\phi,\mu_0,\mu_1,\Sigma} \mathcal{L}(\theta)=\mathop{argmax}\limits_{\phi,\mu_0,\mu_1,\Sigma}\color{blue}1+\color{blue}2+\color{blue}3 \end{aligned}$

1、首先求解 $\color{blue}\boxed{\phi}$ ，对其求偏导：
$\begin{aligned}&\sum\limits_{i=1}^N\frac{y_i}{\phi}+\frac{y_i-1}{1-\phi}=0\\ \Longrightarrow&{\color{blue}\phi}=\frac{\sum\limits_{i=1}^Ny_i}{N}=\frac{N_1}{N} \end{aligned}$

2、然后求解 $\color{blue}\boxed{\mu_1}$ ：
$\begin{aligned} \hat{\mu_1}&=\mathop{argmax}\limits_{\mu_1}\sum\limits_{i=1}^Ny_i\log\mathcal{N}(\mu_1,\Sigma)\\ &=\mathop{argmin}\limits_{\mu_1}\sum\limits_{i=1}^Ny_i(x_i-\mu_1)^T\Sigma^{-1}(x_i-\mu_1) \end{aligned}$

由于：
$\begin{aligned} & \sum\limits_{i=1}^Ny_i(x_i-\mu_1)^T\Sigma^{-1}(x_i-\mu_1) \\&=\sum\limits_{i=1}^Ny_ix_i^T\Sigma^{-1}x_i-2y_i\mu_1^T\Sigma^{-1}x_i+y_i\mu_1^T\Sigma^{-1}\mu_1 \end{aligned}$

提取 $\mu_1$ 相关项：
$\begin{aligned} &\sum\limits_{i=1}^N-2y_i\Sigma^{-1}x_i+2y_i\Sigma^{-1}\mu_1=0\\ \Longrightarrow\color{blue}\mu_1&=\frac{\sum\limits_{i=1}^Ny_ix_i}{\sum\limits_{i=1}^Ny_i}=\frac{\sum\limits_{i=1}^Ny_ix_i}{N_1} \end{aligned}$

3、求解 $\color{blue}\boxed{\mu_0}$ ，由于正反例是对称的，所以： ${\color{blue}\mu_0} =\frac{\sum\limits_{i=1}^N(1-y_i)x_i}{N_0}$

4、求解 $\color{blue}\boxed{\Sigma}$
模型假设正反例的协方差矩阵相同，由上面几个参数的解可知：即使协方差矩阵不同也不会影响前面三个参数的求解。
${\color{blue}\text{先验知识}} \\ \boxed{\begin{aligned} &tr(AB)=tr(BA)\\ &tr(ABC)=tr(CAB)=tr(BCA)\\ &\frac{\partial}{\partial A}(|A|)=|A|A^{-1}\\ &\frac{\partial}{\partial A}Trace(AB)=B^T \end{aligned}}$

首先有：
$\begin{aligned} \sum\limits_{i=1}^N\log\mathcal{N}(\mu,\Sigma) &=\sum\limits_{i=1}^N\log(\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}})+(-\frac{1}{2}\underbrace{(x_i-\mu)^T\Sigma^{-1}(x_i-\mu)}_{\color{blue}\text{一维实数}})\\ &=Const-\frac{1}{2}N\log|\Sigma|-\frac{1}{2}Trace((x_i-\mu)^T\Sigma^{-1}(x_i-\mu))\\ &=Const-\frac{1}{2}N\log|\Sigma|-\frac{1}{2}Trace(\underbrace{(x_i-\mu)(x_i-\mu)^T}_{\color{blue}S}\Sigma^{-1})\\ &=Const-\frac{1}{2}N\log|\Sigma|-\frac{1}{2}NTrace(S\Sigma^{-1}) \end{aligned}$

因此：
$\begin{aligned} {\color{blue}1}+{\color{blue}2}=Const-\frac{1}{2}N\log|\Sigma|-\frac{1}{2}N_1Trace(S_1\Sigma^{-1})-\frac{1}{2}N_2Trace(S_2\Sigma^{-1}) \end{aligned}$

其中， $S_1,S_2$ 分别为两类数据内部的协方差矩阵，又因为只有 ${\color{blue}1}$ 和 ${\color{blue}2}$ 项与 $\Sigma$ 有关，对 $\Sigma$ 求偏导并令其为 0 ：
$\begin{aligned} &\frac{\partial {\color{blue}1}+{\color{blue}2}}{\Sigma}=N\Sigma^{-1}-N_1S_1^T\Sigma^{-2}-N_2S_2^T\Sigma^{-2}=0\\ \Longrightarrow&{\color{blue}\Sigma}=\frac{N_1S_1+N_2S_2}{N} \end{aligned}$

上式利用了协方差矩阵的对称性。至此，模型所有参数都已得到。

概率生成模型-朴素贝叶斯

朴素贝叶斯假设=条件独立性假设
上面的高斯判别分析的是对数据集的分布作出了高斯分布的假设，同时引入伯努利分布作为类先验，从而利用最大后验求得这些假设中的参数。

要得到 $p (x ∣ y)$ ，由于 $x$ 为 $p$ 维，因此需要对高维度的联合概率进行采样，但高维空间的采样需要非常大样本量才能获得较为准确的概率近似。为简化计算，朴素贝叶斯对数据的属性之间的关系作出了朴素贝叶斯假设（条件独立性假设）：
$p(x|y)=\prod\limits_{i=1}^pp(x_i|y)$

也就是： $x_i\perp x_j|y,\forall\ i\ne j$

根据贝叶斯定理： $\frac{p(y,x)}{p(x)}=\frac{p(x|y)p(y)}{p(x)}\propto p(x|y)p(y)={\prod\limits_{i=1}^pp(x_i|y)p(y)}$

假如还是二分类问题分布
$\hat y =\argmax_y p(y|x) =\argmax_{y=\{0,1\}} {\prod\limits_{i=1}^pp(x_i|y)p(y)}$

参考文献

【1】线性分类
【2】感知机原理小结
【3】逻辑回归原理小结
【4】scikit-learn 逻辑回归类库使用小结
【5】线性判别分析LDA原理总结

xiaochengJF

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习算法笔记：线性分类

线性分类对于分类任务，线性回归模型就无能为力了，但是我们可以在线性模型的函数进行后再加入一层激活函数，这个函数是非线性的，激活函数的反函数叫做链接函数。我们有两种线性分类的方式：硬分类直接需要输出观测对应的分类。这类模型的代表为：线性判别分析（Fisher 判别）感知机软分类产生不同类别的概率，这类算法根据概率方法的不同分为两种生成式（根据贝叶斯定理先计算参数后验，再进行推断...
复制链接

扫一扫