数据挖掘与分析课程笔记（Chapter 20）

yyywxk

已于 2022-11-03 16:00:36 修改

阅读量202

点赞数

分类专栏：数学文章标签：数据挖掘 python

于 2022-11-03 15:47:24 首次发布

本文链接：https://blog.csdn.net/yyywxk/article/details/127671900

版权

数学专栏收录该内容

19 篇文章 1 订阅

订阅专栏

数据挖掘与分析课程笔记

参考教材：Data Mining and Analysis : MOHAMMED J.ZAKI, WAGNER MEIRA JR.

文章目录

笔记目录

数据挖掘与分析课程笔记
文章目录
Chapter 20: Linear Discriminant Analysis
- 20.1 Normal LDA
- 20.2 Kernel LDA：

Chapter 20: Linear Discriminant Analysis

Set up： $\mathbf{D}=\{(\mathbf{x}_i,y_i) \}_{i=1}^n$ ，其中 $y_i=1,2$ （或 $\pm 1$ 等）， $\mathbf{D}_1=\{\mathbf{x}_i|y_i=1 \}$ ， $\mathbf{D}_2=\{\mathbf{x}_i|y_i=2 \}$

Goal：寻找向量 $\mathbf{w}\in \mathbb{R}^d$ （代表直线方向）使得 $\mathbf{D}_1,\mathbf{D}_2$ 的“平均值”距离最大且“总方差”最小。

20.1 Normal LDA

设 $\mathbf{w} \in \mathbb{R}^d,\mathbf{w}^T\mathbf{w}=1$ ，则 $\mathbf{x}_i$ 在 $\mathbf{w}$ 方向上的投影为 $\mathbf{x}_{i}^{\prime}=\left(\frac{\mathbf{w}^{T} \mathbf{x}_{i}}{\mathbf{w}^{T} \mathbf{u}}\right) \mathbf{w}=a_{i} \mathbf{w},a_{i}=\mathbf{w}^{T} \mathbf{x}_{i}$

则 $\mathbf{D}_1$ 中数据在 $\mathbf{w}$ 上的投影平均值为：（ $|\mathbf{D}_1|=n_1$ ）
$m_1:=\frac{1}{n_1}\sum\limits_{\mathbf{x}_i\in \mathbf{D}_1}a_i=\boldsymbol{\mu}_1^T\mathbf{w}$
投影平均值等于平均值的投影。

类似地： $\mathbf{D}_2$ 中数据在 $\mathbf{w}$ 上的投影平均值为：
$m_2:=\frac{1}{n_2}\sum\limits_{\mathbf{x}_i\in \mathbf{D}_2}a_i=\boldsymbol{\mu}_2^T\mathbf{w}$
目标之一：寻找 $\mathbf{w}$ 使得 $m_1-m_2)^2$ 最大。

对于 $\mathbf{D}_i$ ，定义：
$s_i^2=\sum\limits_{\mathbf{x}_k\in \mathbf{D}_i}(a_k-m_i)^2$
注意： $s_i^2=n_i\sigma^2_i\ (|D_i|=n_i)$

Goal：Fisher LDA目标函数：
$\max\limits_{\mathbf{w}}J(\mathbf{w})=\frac{(m_1-m_2)^2}{s_1^2+s_2^2}$
注意： $J(\mathbf{w})=J(w_1,w_2,\cdots,w_d)$
$\begin{aligned} \left(m_{1}-m_{2}\right)^{2} &=\left(\mathbf{w}^{T}\left(\boldsymbol{\mu}_{1}-\boldsymbol{\mu}_{2}\right)\right)^{2} \\ &=\mathbf{w}^{T}\left(\left(\boldsymbol{\mu}_{1}-\boldsymbol{\mu}_{2}\right)\left(\boldsymbol{\mu}_{1}-\boldsymbol{\mu}_{2}\right)^{T}\right) \mathbf{w} \\ &=\mathbf{w}^{T} \mathbf{B} \mathbf{w} \end{aligned}$

$\mathbf{B}$ 被称为类间扩散矩阵

$\begin{aligned} s_{1}^{2} &=\sum_{\mathbf{x}_{i} \in \mathbf{D}_{1}}\left(a_{i}-m_{1}\right)^{2} \\ &=\sum_{\mathbf{x}_{i} \in \mathbf{D}_{1}}\left(\mathbf{w}^{T} \mathbf{x}_{i}-\mathbf{w}^{T} \boldsymbol{\mu}_{1}\right)^{2} \\ &=\sum_{\mathbf{x}_{i} \in \mathbf{D}_{1}}\left(\mathbf{w}^{T}\left(\mathbf{x}_{i}-\boldsymbol{\mu}_{1}\right)\right)^{2} \\ &=\mathbf{w}^{T}\left(\sum_{\mathbf{x}_{i} \in \mathbf{D}_{1}}\left(\mathbf{x}_{i}-\boldsymbol{\mu}_{1}\right)\left(\mathbf{x}_{i}-\boldsymbol{\mu}_{1}\right)^{T}\right) \mathbf{w} \\ &=\mathbf{w}^{T} \mathbf{S}_{1} \mathbf{w} \end{aligned}$

$\mathbf{S}_{1}$ 被称为 $\mathbf{D}_1$ 的扩散矩阵 $\mathbf{S}_{1}=n_1\Sigma_1$

类似地， $s_{2}^{2}=\mathbf{w}^{T} \mathbf{S}_{2} \mathbf{w}$

令 $\mathbf{S}=\mathbf{S}_{1}+\mathbf{S}_{2}$ ，则
$\max\limits_{\mathbf{w}}J(\mathbf{w})=\frac{(m_1-m_2)^2}{s_1^2+s_2^2}=\frac{\mathbf{w}^{T} \mathbf{B} \mathbf{w}}{\mathbf{w}^{T} \mathbf{S} \mathbf{w}}$

注意：
$\frac{d}{d\mathbf{w}}J(\mathbf{w})=\frac{2\mathbf{B}\mathbf{w}(\mathbf{w}^T\mathbf{S}\mathbf{w})-2\mathbf{S}\mathbf{w}(\mathbf{w}^T\mathbf{B}\mathbf{w})}{(\mathbf{w}^T\mathbf{S}\mathbf{w})^2}=\mathbf{0}$
即有：
$\begin{aligned} \mathbf{B}\mathbf{w}(\mathbf{w}^T\mathbf{S}\mathbf{w})&=\mathbf{S}\mathbf{w}(\mathbf{w}^T\mathbf{B}\mathbf{w})\\ \mathbf{B}\mathbf{w}&=\mathbf{S}\mathbf{w}\cdot\frac{\mathbf{w}^{T} \mathbf{B} \mathbf{w}}{\mathbf{w}^{T} \mathbf{S} \mathbf{w}}\\ \mathbf{B}\mathbf{w}&=J(\mathbf{w})\cdot\mathbf{S} \mathbf{w}\quad (*) \end{aligned}$
若 $\mathbf{S}^{-1}$ 存在，则
$\mathbf{S}^{-1}\mathbf{B}\mathbf{w}=J(\mathbf{w})\cdot\mathbf{w}$
故要求最大 $J(\mathbf{w})$ ，只需 $\mathbf{S}^{-1}\mathbf{B}$ 的最大特征值， $\mathbf{w}$ 为其特征向量。

☆ 不求特征向量求出 $\mathbf{w}$ 的方法

将 $\mathbf{B}=(\boldsymbol{\mu}_{1}-\boldsymbol{\mu}_{2})(\boldsymbol{\mu}_{1}-\boldsymbol{\mu}_{2})^{T}$ 代入 $(*)$ 得
$\begin{aligned} (\boldsymbol{\mu}_{1}-\boldsymbol{\mu}_{2})(\boldsymbol{\mu}_{1}-\boldsymbol{\mu}_{2})^{T}\mathbf{w} &=J(\mathbf{w})\cdot\mathbf{S} \mathbf{w}\\ \mathbf{S}^{-1}(\boldsymbol{\mu}_{1}-\boldsymbol{\mu}_{2})[\frac{(\boldsymbol{\mu}_{1}-\boldsymbol{\mu}_{2})^{T}\mathbf{w}}{J(\mathbf{w})}]&=\mathbf{w} \end{aligned}$
故只需计算 $\mathbf{S}^{-1}(\boldsymbol{\mu}_{1}-\boldsymbol{\mu}_{2})$ ，再单位化。

20.2 Kernel LDA：

事实1：如果 $\left(\mathbf{S}_{\phi}^{-1} \mathbf{B}_{\phi}\right) \mathbf{w}=\lambda \mathbf{w}$ ，那么 $\mathbf{w}=\sum\limits_{j=1}^na_j\phi(\mathbf{x}_j)$ ，证明见讲稿最后两页。

令 $\mathbf{a}=(a_1,\cdots,a_n)^T$ 是“事实1”中的向量。

下面将 $\max\limits_{\mathbf{w}}J(\mathbf{w})=\frac{(m_1-m_2)^2}{s_1^2+s_2^2}=\frac{\mathbf{w}^{T} \mathbf{B}_{\phi} \mathbf{w}}{\mathbf{w}^{T} \mathbf{S}_{\phi} \mathbf{w}}$ 的问题转化为 $\max G(\mathbf{a})$ s.t. 使用 $\mathbf{K}$ 能求解。

注意到：
$\begin{aligned} m_{i}=\mathbf{w}^{T} \boldsymbol{\mu}_{i}^{\phi} &=\left(\sum_{j=1}^{n} a_{j} \phi\left(\mathbf{x}_{j}\right)\right)^{T}\left(\frac{1}{n_{i}} \sum_{\mathbf{x}_{i} \in \mathbf{D}_{i}} \phi\left(\mathbf{x}_{k}\right)\right) \\ &=\frac{1}{n_{i}} \sum_{j=1}^{n} \sum_{\mathbf{x}_{k} \in \mathbf{D}_{i}} a_{j} \phi\left(\mathbf{x}_{j}\right)^{T} \phi\left(\mathbf{x}_{k}\right) \\ &=\frac{1}{n_{i}} \sum_{j=1}^{n} \sum_{\mathbf{x}_{k} \in \mathbf{D}_{i}} a_{j} K\left(\mathbf{x}_{j}, \mathbf{x}_{k}\right) \\ &=\mathbf{a}^{T} \mathbf{m}_{i} \end{aligned}$
其中，
$\mathbf{m}_{i}=\frac{1}{n_{i}}\left(\begin{array}{c} \sum\limits_{\mathbf{x}_{k} \in \mathbf{D}_{i}} K\left(\mathbf{x}_{1}, \mathbf{x}_{k}\right) \\ \sum\limits_{\mathbf{x}_{k} \in \mathbf{D}_{i}} K\left(\mathbf{x}_{2}, \mathbf{x}_{k}\right) \\ \vdots \\ \sum\limits_{\mathbf{x}_{k} \in \mathbf{D}_{i}} K\left(\mathbf{x}_{n}, \mathbf{x}_{k}\right) \end{array}\right)_{n\times 1}$
故
$\begin{aligned} \left(m_{1}-m_{2}\right)^{2} &=\left(\mathbf{w}^{T} \boldsymbol{\mu}_{1}^{\phi}-\mathbf{w}^{T} \boldsymbol{\mu}_{2}^{\phi}\right)^{2} \\ &=\left(\mathbf{a}^{T} \mathbf{m}_{1}-\mathbf{a}^{T} \mathbf{m}_{2}\right)^{2} \\ &=\mathbf{a}^{T}\left(\mathbf{m}_{1}-\mathbf{m}_{2}\right)\left(\mathbf{m}_{1}-\mathbf{m}_{2}\right)^{T} \mathbf{a} \\ &=\mathbf{a}^{T} \mathbf{M a} \end{aligned}$
（ $\mathbf{M}$ 被称为核类间扩散矩阵）
$\begin{aligned} s_{1}^{2} &=\sum_{\mathbf{x}_{i} \in \mathbf{D}_{1}}\left\|\mathbf{w}^{T} \phi\left(\mathbf{x}_{i}\right)-\mathbf{w}^{T} \boldsymbol{\mu}_{1}^{\phi}\right\|^{2} \\ &=\sum_{\mathbf{x}_{i} \in \mathbf{D}_{1}}\left\|\mathbf{w}^{T} \phi\left(\mathbf{x}_{i}\right)\right\|^{2}-2 \sum_{\mathbf{x}_{i} \in \mathbf{D}_{1}} \mathbf{w}^{T} \phi\left(\mathbf{x}_{i}\right) \cdot \mathbf{w}^{T} \boldsymbol{\mu}_{1}^{\phi}+\sum_{\mathbf{x}_{i} \in \mathbf{D}_{1}}\left\|\mathbf{w}^{T} \boldsymbol{\mu}_{1}^{\phi}\right\|^{2} \\ &=\left(\sum_{\mathbf{x}_{i} \in \mathbf{D}_{1}}\left\|\sum_{j=1}^{n} a_{j} \phi\left(\mathbf{x}_{j}\right)^{T} \phi\left(\mathbf{x}_{i}\right)\right\|^{2}\right)-2 \cdot n_{1} \cdot\left\|\mathbf{w}^{T} \boldsymbol{\mu}_{1}^{\phi}\right\|^{2}+n_{1} \cdot\left\|\mathbf{w}^{T} \boldsymbol{\mu}_{1}^{\phi}\right\|^{2}\\ &=\left(\sum_{\mathbf{x}_{i} \in \mathbf{D}_{1}} \mathbf{a}^{T} \mathbf{K}_{i} \mathbf{K}_{i}^{T} \mathbf{a}\right)-n_{1} \cdot \mathbf{a}^{T} \mathbf{m}_{1} \mathbf{m}_{1}^{T} \mathbf{a}\\ &=\mathbf{a}^{T}\left(\left(\sum_{\mathbf{x}_{i} \in \mathbf{D}_{1}} \mathbf{K}_{i} \mathbf{K}_{i}^{T}\right)-n_{1} \mathbf{m}_{1} \mathbf{m}_{1}^{T}\right) \mathbf{a} \\ &=\mathbf{a}^{T} \mathbf{N}_{1} \mathbf{a} \end{aligned}$
类似地，令 $\mathbf{N}_2=\left(\sum\limits_{\mathbf{x}_{i} \in \mathbf{D}_{2}} \mathbf{K}_{i} \mathbf{K}_{i}^{T}-n_{2} \mathbf{m}_{2} \mathbf{m}_{2}^{T}\right)$

则 $s_1^2+s_2^2=\mathbf{a}^{T} (\mathbf{N}_{1}+\mathbf{N}_{2}) \mathbf{a}=\mathbf{a}^{T}\mathbf{N} \mathbf{a}$

故： $J(\mathbf{w})=\frac{\mathbf{a}^{T}\mathbf{M} \mathbf{a}}{\mathbf{a}^{T}\mathbf{N} \mathbf{a}}:=G(\mathbf{a})$

类似 20.1， $\mathbf{M} \mathbf{a}=\lambda\mathbf{N} \mathbf{a}$

若 $\mathbf{N} ^{-1}$ 存在， $\mathbf{N}^{-1} \mathbf{M} \mathbf{a}=\lambda \mathbf{a}$ ， $\lambda$ 取 $\mathbf{N}^{-1} \mathbf{M}$ 的最大特征值， $\mathbf{a}$ 是相应的特征向量。
若 $\mathbf{N} ^{-1}$ 不存在，MATLAB 求广义逆

最后考查 $\mathbf{w}^T\mathbf{w}=1$ ，即

$\begin{aligned} (\sum\limits_{j=1}^na_j\phi(\mathbf{x}_j))^T(\sum\limits_{i=1}^na_i\phi(\mathbf{x}_i))&=1\\ \sum\limits_{j=1}^n\sum\limits_{i=1}^na_ja_i\phi(\mathbf{x}_j)^T\phi(\mathbf{x}_i)&=1\\ \sum\limits_{j=1}^n\sum\limits_{i=1}^na_ja_iK(\mathbf{x}_i,\mathbf{x}_j)&=1\\ \mathbf{a}^T\mathbf{K}\mathbf{a}&=1 \end{aligned}$
求出 $\mathbf{N}^{-1} \mathbf{M}$ 的特征向量 $\mathbf{a}$ 后， $\mathbf{a}\leftarrow \frac{\mathbf{a}}{\sqrt{\mathbf{a}^T\mathbf{K}\mathbf{a}}}$ 以保证 $\mathbf{w}^T\mathbf{w}=1$

yyywxk

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘与分析课程笔记（Chapter 20）

的“平均值”距离最大且“总方差”最小。不存在，MATLAB 求广义逆。投影平均值等于平均值的投影。（代表直线方向）使得。是“事实1”中的向量。被称为核类间扩散矩阵）上的投影平均值为：（☆ 不求特征向量求出。，证明见讲稿最后两页。
复制链接

扫一扫

专栏目录