线性判别分析基础
理论
我们回顾一下二元假设检验问题,它的目标是判断某一个observation x ∈ R d x \in \mathbb{R}^d x∈Rd到底属于总体 P 1 P_1 P1还是 P 2 P_2 P2,在统计理论中,Neyman-Pearson引理说明了似然比检验是最优检验,也就是基于 log P 2 ( x ) P 1 ( x ) \log \frac{P_2(x)}{P_1(x)} logP1(x)P2(x)导出的检验统计量与拒绝域是最优的。现在我们考虑线性判别分析的设定,假设两个总体分别是 N ( μ 1 , Σ ) , N ( μ 2 , Σ ) N(\mu_1,\Sigma),N(\mu_2,\Sigma) N(μ1,Σ),N(μ2,Σ),则给定某个observation x ∈ R d x \in \mathbb{R}^d x∈Rd,对数似然比为(多元正态分布的概率密度参考我之前这一篇)
log P 1 ( x ) P 2 ( x ) = log ( 2 π ) − d / 2 ∣ Σ ∣ − 1 / 2 exp ( − 1 2 ( x − μ 1 ) ′ Σ − 1 ( x − μ 1 ) ) ( 2 π ) − d / 2 ∣ Σ ∣ − 1 / 2 exp ( − 1 2 ( x − μ 2 ) ′ Σ − 1 ( x − μ 2 ) ) = 1 2 ( x − μ 2 ) ′ Σ − 1 ( x − μ 2 ) − 1 2 ( x − μ 1 ) ′ Σ − 1 ( x − μ 1 ) = 1 2 ( x − μ 1 + ( μ 1 − μ 2 ) ) ′ Σ − 1 ( x − μ 1 + μ 2 2 + μ 1 + μ 2 2 − μ 2 ) − 1 2 ( x − μ 1 ) ′ Σ − 1 ( x − μ 1 + μ 2 2 + μ 1 + μ 2 2 − μ 1 ) = 1 2 ( x − μ 1 ) ′ Σ − 1 ( x − μ 1 + μ 2 2 ) + 1 2 ( μ 1 − μ 2 ) ′ Σ − 1 ( x − μ 1 + μ 2 2 ) + 1 4 ( x − μ 1 ) ′ Σ − 1 ( μ 1 − μ 2 ) + 1 4 ( μ 1 − μ 2 ) ′ Σ − 1 ( μ 1 − μ 2 ) − 1 2 ( x − μ 1 ) ′ Σ − 1 ( x − μ 1 + μ 2 2 ) − 1 4 ( x − μ 1 ) ′ Σ − 1 ( μ 1 − μ 2 ) = 1 2 ( μ 1 − μ 2 ) ′ Σ − 1 ( x − μ 1 + μ 2 2 ) + 1 4 ( μ 1 − μ 2 ) ′ Σ − 1 ( μ 1 − μ 2 ) ∝ Ψ ( x ) = ( μ 1 − μ 2 ) ′ Σ − 1 ( x − μ 1 + μ 2 2 ) \log \frac{P_1(x)}{P_2(x)}=\log \frac{(2\pi)^{-d/2}|\Sigma|^{-1/2}\exp \left( -\frac{1}{2}(x-\mu_1)'\Sigma^{-1}(x-\mu_1) \right)}{(2\pi)^{-d/2}|\Sigma|^{-1/2}\exp \left( -\frac{1}{2}(x-\mu_2)'\Sigma^{-1}(x-\mu_2) \right)} \\ = \frac{1}{2}(x-\mu_2)'\Sigma^{-1}(x-\mu_2) -\frac{1}{2}(x-\mu_1)'\Sigma^{-1}(x-\mu_1) \\ = \frac{1}{2}(x-\mu_1+(\mu_1-\mu_2))'\Sigma^{-1}(x-\frac{\mu_1+\mu_2}{2}+\frac{\mu_1+\mu_2}{2}-\mu_2) \\-\frac{1}{2}(x-\mu_1)'\Sigma^{-1}(x-\frac{\mu_1+\mu_2}{2}+\frac{\mu_1+\mu_2}{2}-\mu_1) \\ = \frac{1}{2}(x-\mu_1)'\Sigma^{-1}(x-\frac{\mu_1+\mu_2}{2})+\frac{1}{2}(\mu_1-\mu_2)'\Sigma^{-1}(x-\frac{\mu_1+\mu_2}{2}) \\ +\frac{1}{4}(x-\mu_1)'\Sigma^{-1}(\mu_1-\mu_2)+\frac{1}{4}(\mu_1-\mu_2)'\Sigma^{-1}(\mu_1-\mu_2) \\ - \frac{1}{2}(x-\mu_1)'\Sigma^{-1}(x-\frac{\mu_1+\mu_2}{2})-\frac{1}{4}(x-\mu_1)'\Sigma^{-1}(\mu_1-\mu_2) \\ = \frac{1}{2}(\mu_1-\mu_2)'\Sigma^{-1}(x-\frac{\mu_1+\mu_2}{2})+\frac{1}{4}(\mu_1-\mu_2)'\Sigma^{-1}(\mu_1-\mu_2) \\ \propto \Psi(x)=(\mu_1-\mu_2)'\Sigma^{-1}(x-\frac{\mu_1+\mu_2}{2}) logP2(x)P1(x)=log(2π)−d/2∣Σ∣−1/2exp(−21(x−μ2)′Σ−1(x−μ2))(2π)−d/2∣Σ∣−1/2exp(−21(x−μ1)′Σ−1(x−μ1))=21(x−μ2)′Σ−1(x−μ2)−21(x−μ1)′Σ−1(x−μ1)=21(x−μ1+(μ1−μ2