可以转载,禁止修改。转载请注明作者以及原文链接
注:本文是从贝叶斯分类器的角度来讨论判别分析,有关贝叶斯分类器的概念可参考文末延伸阅读第1-2篇文章。至于Fisher判别分析,未来会连同PCA一同讨论。
判别分析也是一种分类器,与逻辑回归相比,它具有以下优势:
- 当类别的区分度高的时候,逻辑回归的参数估计不够稳定,它点在线性判别分析中是不存在的;
- 如果样本量n比较小,而且在每一类响应变量中预测变量X近似服从正态分布,那么线性判别分析比逻辑回归更稳定;
- 多于两类的分类问题时,线性判别分析更普遍。
贝叶斯分类器
贝叶斯分类的基本思想是:对于多分类(大于等于2类)的问题,计算在已知条件下各类别的条件概率,取条件概率最大的那一类作为分类结果。用公式描述如下:
其中, πk 是第k类的先验概率, fk(x) 是第k类的概率密度(当然如果是离散型变量就是条件概率,本文考虑连续型变量)。这个公式就是贝叶斯定理。
线性判别分析(Linear Discriminant Analysis, LDA)
1、 一元线性判别分析
假设特征变量满足正态分布,即:
线性判别分析有一个重要假设:假设所有K类的划分方差相同,即 δ21 = δ22 =……= δ2K 。根据贝叶斯定理有:
对分子取对数转换,可见 pk(x) 最大等价于下式最大:
(这里十分诚意地附上推导过程,没兴趣的可以直接跳过:)
所以只要找到令上式最大的k值即可。从上式可看出,一共有 μ 、