线性判别分析

最新推荐文章于 2024-05-18 12:31:36 发布

zhzhx0318

最新推荐文章于 2024-05-18 12:31:36 发布

阅读量1.5k

点赞数

本文链接：https://blog.csdn.net/zhzhx1204/article/details/75000676

版权

概述

需要注意一下，LDA有两种缩写：

一种是线性判别分析（Linear Discriminant Analysis）
一种是概率主题模型——隐含狄利克雷分布（Latent Dirichlet Allocation）

本文讲的是前者。

线性判别分析（Linear Discriminant Analysis，LDA）的思想是：

训练时：设法将训练样本投影到一条直线上，使得同类样本的投影点尽可能地接近，异类样本的投影点尽可能地远离。要学习的就是这样的一条直线。
预测时：将待预测样本投影到学到的直线上，根据它的投影点的位置来判定它的类别。

推导过程

首先考虑二分类问题。
给定数据集T，其中共有m个样本，n个特征。即：

x11,x12,x13,...,x1n,y1 $x_1^1,x_2^1,x_3^1,...,x_n^1,y^1$

x21,x22,x23,...,x2n,y2 $x_1^2,x_2^2,x_3^2,...,x_n^2,y^2$

...... $......$

xm1,xm2,xm3,...,xmn,ym $x_1^m,x_2^m,x_3^m,...,x_n^m,y^m$
其中，

yi={0,1},i=1,2,...,m $y^i=\{0,1\},i=1,2,...,m$

设类别为0的样本的均值向量为： $u_0=(u_0^1,u_0^2,...,u_0^n)^T$ ,这些样本的特征之间的协方差矩阵为 $\sum_0$ 。
设类别为1的样本的均值向量为： $u_1=(u_1^1,u_1^2,...,u_1^n)^T$ ,这些样本的特征之间的协方差矩阵为 $\sum_1$ 。
假设直线为 $y=\theta^Tx$ ，将数据投影到直线上，则：
两类样本的中心在直线上的投影分别为 $\theta^Tu_0$ 和 $\theta^Tu_1$ 。
两类样本投影的方差分别为 $\theta^T\sum_0\theta$ 和 $\theta^T\sum_1\theta$ 。
我们的目标是：同类样本的投影点尽可能地接近，异类样本的投影点尽可能地远离。那么可以使同类样例投影点的方差尽可能地小，即 $\theta^T\sum_0\theta+\theta^T\sum_1\theta$ 尽可能地小；可以使异类样例的中心投影点尽可能地远离，即 $\|\theta^Tu_0-\theta^Tu_1\|^2$ 尽可能地大。
于是得到最大化的目标：

J=∥θTu0−θTu1∥2θT∑0θ+θT∑1θ=θT(u0−u1)(u0−u1)TθθT(∑0+∑1)θ $J=\frac{\|\theta^Tu_0-\theta^Tu_1\|^2}{\theta^T\sum_0\theta+\theta^T\sum_1\theta}=\frac{\theta^T(u_0-u_1)(u_0-u_1)^T\theta}{\theta^T(\sum_0+\sum_1)\theta}$
定义类内散度矩阵：

Sw=∑0+∑1=∑x∈T0(x−u0)(x−u0)T+∑x∈T1(x−u1)(x−u1)T $S_w=\sum_0+\sum_1=\sum_{x\in T_0}(x-u_0)(x-u_0)^T+\sum_{x\in T_1}(x-u_1)(x-u_1)^T$
定义类间散度矩阵：

Sb=(u0−u1)(u0−u1)T $S_b=(u_0-u_1)(u_0-u_1)^T$
则LDA最大化的目标为：

J=θTSbθθTSwθ $J=\frac{\theta^TS_b\theta}{\theta^TS_w\theta}$
求解最优化问题：

argmaxθθTSbθθTSwθ $arg\,\,max_{\theta}\frac{\theta^TS_b\theta}{\theta^TS_w\theta}$
分子分母都是关于

θ $\theta$ 的二次项，因此上式的解与

θ $\theta$ 的长度无关。令

θTSwθ=1 $\theta^TS_w\theta=1$ ，则最优化问题改写为：

argmimθ−θTSbθs.t.θTSwθ=1 $arg\,\,mim_{\theta}-\theta^TS_b\theta\quad s.t.\,\theta^TS_w\theta=1$
应用拉格朗日乘子法：

Sbθ=λSwθ $S_b\theta=\lambda S_w\theta$
令

(u0−u1)Tθ=λθ $(u_0-u_1)^T\theta=\lambda_{\theta}$ ，其中

λθ $\lambda_{\theta}$ 为实数。则

Sbθ=(u0−u1)(u0−u1)Tθ=λθ(u0−u1)=λSwθ $S_b\theta=(u_0-u_1)(u_0-u_1)^T\theta=\lambda_{\theta}(u_0-u_1)=\lambda S_w\theta$ 。由于与

θ $\theta$ 的长度无关，可以令

λθ=λ $\lambda_{\theta}=\lambda$ ，则有：

(u0−u1)=Swθ $(u_0-u_1)=S_w\theta$

θ=S−1w(u0−u1) $\theta=S_w^{-1}(u_0-u_1)$
上面讨论的是二分类LDA算法。可以将它扩展到多分类任务中。由于多分类任务不止有两个中心点，因此不能简单地套用二类LDA的做法（即两个中心点的距离）。这里用每一类样本和的中心点距离总的中心点的距离作为度量。同时考虑到每一类样本集的大小可能不同（密度分布不均），所以我们对这个距离加以权重，因此定义类间散度矩阵

Sb=∑Mi=1mi(ui−u)(ui−u)T $S_b=\sum_{i=1}^Mm_i(u_i-u)(u_i-u)^T$ 。
经推导可以得到最大化的目标：

J=tr(θTSbθ)tr(θTSwθ) $J=\frac{tr(\theta^TS_b\theta)}{tr(\theta^TS_w\theta)}$
其中，

tr(.) $tr(.)$ 表示矩阵的迹。一个矩阵的迹是矩阵对角线的元素之和，它是一个矩阵不变量，也等于所有特征值之和。

多类LDA将样本投影到n-1维空间，因此它是一种经典的监督降维技术。

参考文献：

华校专，王正林《Python大战机器学习》

zhzhx0318

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
线性判别分析

概述需要注意一下，LDA有两种缩写：一种是线性判别分析（Linear Discriminant Analysis）一种是概率主题模型——隐含狄利克雷分布（Latent Dirichlet Allocation）本文讲的是前者。线性判别分析（Linear Discriminant Analysis，LDA）的思想是：训练时：设法将训练样本投影到一条直线上，使得同类样本的投影点尽可能地接近，异
复制链接

扫一扫