经典子空间学习——线性判别分析(Linear Discriminant Analysis,LDA)

不易撞的网名

已于 2024-07-06 17:59:04 修改

阅读量901

点赞数 18

分类专栏：机器学习文章标签：学习概率论机器学习

于 2024-07-06 16:11:59 首次发布

本文链接：https://blog.csdn.net/weixin_50569789/article/details/140230834

版权

机器学习专栏收录该内容

221 篇文章 1 订阅

订阅专栏

线性判别分析（Linear Discriminant Analysis, LDA）是一种统计模式识别方法，用于寻找数据集中的线性组合，以最大化类别之间的差异，同时最小化类别内部的差异。

LDA通常用于监督学习场景，例如分类任务，其中已知数据点属于不同的预定义类别，并且目标是 找到能够最好地区分这些类别的低维表示。

LDA的基本公式和参数

目标函数

LDA的目标是找到一个投影矩阵 W，使得投影后的数据在类别间具有最大的方差，在类别内具有最小的方差。这通过最大化下面的比率来实现：

$\frac{W^TS_BW}{W^TS_WW}$

其中：

$S_B$ 表示类间散度矩阵（Between-class scatter matrix），反映了类别间的差异。
$S_W$ 表示类内散度矩阵（Within-class scatter matrix），反映了类别内的差异。
$J (W)$ 是判别准则函数。

散度矩阵

类内散度矩阵 $S_W$ 是所有类别内散度矩阵的加权和：

$S_W=\sum_{i=1}^CS_i$
其中， $S i$ 表示第 $i$ 类的类内散度矩阵，计算方式为：

$S_i=\sum_{x\in C_i}(x-\mu_i)(x-\mu_i)^T$

$\mu_i$ 是第 $i$ 类的均值向量， $C_i$ 是第 $i$ 类的样本集合。

即
$S_W = \sum_{i=1}^C\sum_{x\in C_i}(x-\mu_i)(x-\mu_i)^T$

类间散度矩阵 $S_B$ 描述了各类均值之间的差异：
$S_B = \sum_{i=1}^{c}N_i(\mu_i - \mu)(\mu_i - \mu)^T$
其中

$\mu_i$ 是第 $i$ 类的样本均值向量
$\mu$ 是整个数据集的样本均值向量。

样本协方差矩阵的公式是用来估计一组多维数据之间线性相关性的强度和方向的。对于一个由多个随机变量组成的样本数据集，样本协方差矩阵 $S$ 可以通过以下公式计算：

设我们有一个包含 $m$ 个样本的 $n$ -维数据集 $\{x_1, x_2, \ldots, x_m\}$ ，其中每个样本 $x_i$ 是一个 $n$ -维向量。

样本均值向量为：
$\bar{x} = \frac{1}{m} \sum_{i=1}^{m} x_i$

样本协方差矩阵 $S$ 定义为：
$\frac{1}{m-1} \sum_{i=1}^{m} (x_i - \bar{x})(x_i - \bar{x})^T$

其中

$(x_i - \bar{x})$ 是第 $i$ 个样本与其均值的差
而 $(x_i - \bar{x})^T$ 是这个差的转置。

矩阵中的每个元素 $S_{ij}$ 都代表了第 $i$ 和第 $j$ 个变量之间的样本协方差，计算公式为：
$S_{ij} = \frac{1}{m-1} \sum_{k=1}^{m} (x_{ki} - \bar{x}_i)(x_{kj} - \bar{x}_j)$

其中

$x_{ki}$ 和 $x_{kj}$ 分别是第 $k$ 个样本在第 $i$ 和第 $j$ 个维度上的值
而 $\bar{x}_i$ 和 $\bar{x}_j$ 则是相应维度的样本平均值。

值得注意的是，分母 $m - 1$ 而不是 $m$ 是为了得到无偏估计，这是因为样本均值 $\bar{x}$ 是基于同样的样本数据集计算出来的，从而导致了所谓的“自由度损失”。这种修正被称为 Bessel’s correction。

求解W

要最大化 $J (W)$ ，需要求解以下广义特征值问题：
$S_Bw = \lambda S_Ww$
这里的 $w$ 是 $W$ 的列向量，而 $\lambda$ 是相应的特征值。通常，选择那些具有最大特征值的 $w$ 作为 $W$ 的列向量，因为它们提供了最大的类间可分离性。

解释

$W$ ：投影矩阵，用于将原始数据映射到较低维度空间。
$S_B$ ：类间散度矩阵，量化了类别间的差异。
$S_W$ ：类内散度矩阵，量化了类别内的差异。
$\lambda$ ：特征值，决定了投影方向的重要性。
$w$ ：特征向量，指示了投影的方向。

通过LDA，可以找到一个或多个投影方向，使得数据在这些方向上的投影能最大限度地区分不同的类别，从而提高分类性能。在实际应用中，LDA经常用于降维，以便在保持类别信息的同时减少数据的复杂性。

python代码

# 导入必要的库
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, confusion_matrix
import matplotlib

matplotlib.use('TkAgg')  # 或者尝试 'Agg'

# 加载鸢尾花数据集
iris = load_iris()
X = iris.data
y = iris.target

# 将数据集划分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 使用LDA进行特征提取
lda = LinearDiscriminantAnalysis(n_components=2)  # 我们将数据降到2维
X_train_lda = lda.fit_transform(X_train, y_train)
X_test_lda = lda.transform(X_test)

# 利用LDA结果进行分类
# 这里我们直接使用LDA的预测功能
y_pred = lda.predict(X_test)

# 评估模型性能
print("Classification Report:\n", classification_report(y_test, y_pred))
print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred))

# 可视化LDA结果：
plt.figure()
colors = ['navy', 'turquoise', 'darkorange']
lw = 2

for color, i, target_name in zip(colors, [0, 1, 2], iris.target_names):
    plt.scatter(X_train_lda[y_train == i, 0], X_train_lda[y_train == i, 1], color=color, alpha=.8, lw=lw,
                label=target_name)
plt.legend(loc='best', shadow=False, scatterpoints=1)
plt.title('LDA of IRIS dataset')

plt.show()

不易撞的网名

关注

18
点赞
踩
24

收藏

觉得还不错? 一键收藏
打赏
0
评论
经典子空间学习——线性判别分析(Linear Discriminant Analysis,LDA)

线性判别分析（Linear Discriminant Analysis, LDA）是一种统计模式识别方法，用于寻找数据集中的线性组合，以。LDA通常用于监督学习场景，例如分类任务，其中已知数据点属于不同的预定义类别，并且目标是找到能够最好地区分这些类别的低维表示。
复制链接

扫一扫