Linear classifiers——线性分类器

搁浅丶.

已于 2023-12-21 21:41:52 修改

阅读量900

点赞数 25

分类专栏：机器学习与深度学习文章标签：机器学习人工智能

于 2023-12-16 18:15:23 首次发布

本文链接：https://blog.csdn.net/weixin_64924692/article/details/135026359

版权

机器学习与深度学习专栏收录该内容

23 篇文章 2 订阅

订阅专栏

1.(Generalized) Linear classifiers——广义线性分类器

1.1 模型

假如有两类数据，类别标签为y = 1和y = -1

我们可以使用一个线性函数将其分类，二维形式

通常x增加一个恒等于1的维度，可以将b合并进w，于是更一般的形式为

$x_{1}=1$ , $w_{1}$ 就相当于b

输出分类标签

1.2 几何意义

对于，其法向量为 $(w_{1},w_{2},w_{3}\cdots ,w_{n})=W$ ,单位化 $\frac{W}{\left \| W \right \|}$

对于平面上的一个数据点的向量来说，可以被分解为如下

其中表示向量x在决策函数上的投影向量，γ表示x到决策边界的距离，那么就表示x垂直决策边界的向量

由点到面的距离公式可得，x到决策函数的距离

$\gamma =\frac{h_{w}(x)}{||w||}$

变形得

$h_{w}(x)=\gamma||w||$

决策函数的正负了反映数据点的类别，而且其大小也反映了数据点到决策边界距离

2.Fisher’s linear discriminant——Fisher’s 线性判别

1.Fisher’s 线性判别的原理

Fisher’s 线性判别通过降维的方式进行两类别分离，将高纬度的数据在低纬度上进行投影。投影后希望每一种类别数据的投影点尽可能的接近，而不同类别的数据的类别中心之间的距离尽可能的大，也就是“类内小，类间大”。

例有两类数据“x”"o",二维的数据降维就是投影到一条直线上

选取不同的投影轴，会产生不同的效果，很明显第一张图效果就比第二张图好,所以只需要找到一个满足需求的W向量就能实现分类任务。

2.Fisher’s 线性判别的推导

假设投影到w向量上，同时限定|w|=1,拥有两个特征的数据点向量 $x$ 投影到向量w上等于 $w^{\top }x$ (w相当于一个新的坐标轴， $x$ 通过投影在w轴上的获得的值)

证明：

$x_{i}$ 在w上的投影长度为y= $|x_{i}|cos\theta$

$w^{\top }x_{i}=|w||x_{i}|cos\theta=z$

于是我们可以建立

通过1.可知，数据点会分布在w上的不同位置，通过设定一个阈值 $T_{0}$ 完成分类

假设我们有两个类别 $C_{1}$ 和 $C_{2}$ ，分别有 $N_{1}$ 和 $N_{2}$ 个数据

可以计算出两类数据的均值，通过均值的差距来表现类间的差距

${m}_1=\frac{1}{N_1}\sum_{i=1}^{N_1}\mathbf{x}_i=\frac{1}{N_1}\sum_{i=1}^{N_1}w^{\top }{x}_i$ ,

${m}_2=\frac{1}{N_2}\sum_{i=1}^{N_2}\mathbf{x}_i=\frac{1}{N_2}\sum_{i=1}^{N_2}w^{\top }{x}_i$

同样可以计算出两类数据的方差，通过方差来表现类内的差距

$s_1^2=\frac{1}{N_1}\sum_{i=1}^{N_1}(w^{T}x_{i}-{m_1})(w^{T}x_{i}-{m_1})^T$

$s_2^2=\frac{1}{N_2}\sum_{i=1}^{N_2}(w^{T}x_{i}-{m_2})(w^{T}x_{i}-{m_2})^T$

根据“类内小，类间大”的思想，我们可以建立如下目标函数

$J(\mathbf{w})=\frac{(m_1-m_2)^2}{s_1^2+s_2^2}$ ，与类间均值成正比，类内方差成反比

$\begin{aligned} ({m_{1}}-{m_{2}})^{2}& =(\frac1{N_1}\sum_{i=1}^{N_1}w^Tx_i-\frac1{N_2}\sum_{i=1}^{N_2}w^Tx_i)^2 \\ &=(w^T(\frac{1}{N_1}\sum_{i=1}^{N_1}x_i-\frac{1}{N_2}\sum_{i=1}^{N_2}x_i))^2 \\ &=(w^T(\overline{x_1}-\overline{x_2}))^2 \\ &=w^T(\overline{x_1}-\overline{x_2})(\overline{x_1}-\overline{x_2})^Tw \end{aligned}$

$\begin{aligned} s_{1}^2+s_{2}^2& =\frac{1}{N_{1}}\sum_{i=1}^{N_{1}}(w^{T}x_{i}-{m_{1}})(w^{T}x_{i}-{m_{1}})^{T}+\frac{1}{N_{2}}\sum_{i=1}^{N_{2}}(w^{T}x_{i}-{m_{2}})(w^{T}x_{i}-{m_{2}})^{T} \\ &=\frac{1}{N_1}\sum_{i=1}^{N_1}(w^Tx_i-\frac{1}{N_1}\sum_{i=1}^{N_1}w^Tx_i)(w^Tx_i-\frac{1}{N_1}\sum_{i=1}^{N_1}w^Tx_i)^T+\frac{1}{N_2} \\ &\sum_{i=1}^{N_{2}}(w^{T}x_{i}-\frac{1}{N_{2}}\sum_{i=1}^{N_{2}}w^{T}x_{i})(w^{T}x_{i}-\frac{1}{N_{2}}\sum_{i=1}^{N_{2}}w^{T}x_{i})^{T} \\ &=w^T\frac1{N_1}\sum_{i=1}^{N_1}[(x_i-\overline{x_1})(x_i-\overline{x_1})^T]w+w^T\frac1{N_2}\sum_{i=1}^{N_2}[(x_i-\overline{x_2})(x_i-\overline{x_2})^T]w \\ &=w^Ts_{1}^2w+w^Ts_{2}^2w \\ &=w^{T}(s_{1}^2+s_{2}^2)w \end{aligned}$

令 $S_{B}=(m_{1}-m_{2})(m_{1}-m_{2})^T$ ,表示类间协方差矩阵

令 $S_{w}=s_{1}^2+s_{2}^2$ ,表示类内协方差矩阵

可以得到

$J(\mathbf{w})=\frac{\mathbf{w}^T\mathbf{S}_B\mathbf{w}}{\mathbf{w}^T\mathbf{S}_W\mathbf{w}}$

这个就是损失函数，目标是求最大值

对w求偏导有（这里需要用到矩阵求导）

假设数据点有p维

最终我们可以得到

求解速度快，不需要像SGD一样迭代，简单高效
对于数据的特征维度不能太高<1000

另外如果只考虑类内小，不考虑类间大

3.Perceptron——感知机

3.1 感知机及其模型

感知机是一个二分类线性模型

对于每个输入数据x都会有一个对应的权重w，图中的○称为“神经元”或者“节点”。

输入被送往神经元时，会被分别乘以固定的权重加上偏置项（wx+b），神经元会计算传送过来的信号的总和，在经过一个非线性激活函数输出最终的值，在感知机中使用的是符号函数sign。

如果用X表示特征向量，W表示权重向量（按照之前同样的方法把b并入W向量），最终该模型可以表示为

$\mathbf{y}=\begin{cases}\mathbf{+1(W^{T}X>=0)}\\-1(W^{T}X<0)\end{cases}$

决策边界为 $y=W^{T}X$ ,产生一个线性分割超平面

3.2 损失函数

我们很容易想到的一个损失函数的是误分类点的总数，但是这样损失函数与w无关，不是参数w和b的连续可导函数导函数导函数，无法得到w的值。

于是，感知机采用误分类点到超平面的总距离,如下图

单个样本到超平面的距离如下公式

$d=\frac{|W^{T}X|}{||W||}$ ()

对于每一个误分类样本来说，都有 $-y_{i}(W^{T}X_{i})>0$ 成立，其中 $y_{i}$ 为真实标签，下面给出证明：

当 $y_{i}=1$ 时，误分类样本 $W^{T}X_{i}<0$ ,可以得到 $-y_{i}(W^{T}X_{i})>0$ ,且此时有 $-y_{i}(W^{T}X_{i})=-(W^{T}X_{i})=|W^{T}X_{i}|$
当 $y_{i}=-1$ 时，误分类样本 $W^{T}X_{i}>=0$ ,可以得到 $-y_{i}(W^{T}X_{i})>0$ ，且此时有 $-y_{i}(W^{T}X_{i})=(W^{T}X_{i})=|W^{T}X_{i}|$

于是误分类点到超平面的总距离可以表示为下式：
$-\frac{1}{||W||}\sum_{X_{i}\epsilon M}(y_{i}(W^{T}X_{i}))$ ，M表示误分类点集合

此外，1/||w||用来归一化超平面法向量，得到几何间隔，也就是点到超平面的距离，但超平面只要能够将两类样本分类开即可,距离大小没关系，下图中两条决策边界都是正确的

最终感知机损失函数为

$J(w)=-\sum_{X_{i}\epsilon M }y_{i}(W^{T}X_{i})$

3.3 梯度下降

对于感知机来说，极小化过程中不是一次使M中所有误分类点的梯度下降，而是一次随机选取一个点使其梯度下降，因此感知机的优化器使用的是随机梯度下降（SGD）。

当选取的点分类正确时，无需进行参数更新

当选取的点分类错误时

计算该点损失函数的梯度:

$\frac{\delta J(w)}{\delta w}=-y_{i}X_{i}$

更新W

$W^{t+1}=W^{t}+\eta y_{i}X_{i}$

同时可以看出，当一个误分类点的真实标签为1时即 $y_{i}$ =1时，W在原本基础上增加了一个X，当一个误分类点的真实标签为1时即 $y_{i}$ =-1时，W在原本基础上减少一个X，如下图

3.4 代码实现

一个二维的感知机，决策边界为y=wx+b

# 训练参数
epochs = 100
η = 0.1
 
# 感知机
def perceptron(X, y, η, epochs):
    n_samples, n_features = X.shape
    # 初始化权重参数
    w = np.zeros(n_features)
    b = 0
    for epoch in range(epochs):
        for i in range(n_samples):
            # 预测值
            y_pred = 1 if (np.dot(X[i], w) + b) > 0 else -1            
            # 随机梯度下降法随机选择一个误分点进行参数更新
            if -y[i]*(np.dot(X[i], w) + b)>=0:
                w = w + η * X[i] * y[i]
                b = b + η * y[i]
                loss += 1
    return w, b
 
# 预测函数
def predict(X,w):
    y_pred = np.where(np.dot(X,w)+b>0,1,-1)
    return y_pred
 
w,b = perceptron(trainx,trainy,η,epochs)