-1. 契机
回顾一下2012年夏天帮同学完成的一个作业。虽然及其入门级,但对于基础概念的理解还是有所帮助。现在做以回顾,算是总结机器学习算法的开篇。
0. 问题定义
训练集中\(N\)个样本,每个样本\(p\)个特征,共包含\(K\)个类别。
1. 为何结合三种分类算法
从最终的测试结果来看,三种算法的结合似乎没有比单独使用其中两个甚至一个算法有特别大的提高。但是作为学习的过程,还是有其价值的。毕竟单独的算法就只是该算法本身,而算法的结合就需要从理论层面上考虑更多的因素。
2. 围绕LDA展开讨论
2.1 LDA用于分类的基本思路描述
这里是指线性判决分析,Linear Discriminant Analysis(LDA),而非文本主题模型中的Latent Dirichlet Allocation。已经忘了当初帮人做作业时候参阅哪本资料了,最近一年我是重新学习The Element of Statistical Learning。凑着有这个心情,就简单总结一下。
LDA是一种生成模型,根据Bayes原理直接用联合概率分布直接表示后验概率。\[\mathcal{P}(\mathcal{G}=k|X=x)=\frac{\mathcal{P}(X=x|\mathcal{G}=k)\mathcal{P}(\mathcal{G}=k)}{\mathcal{P}(X=x)}\] LDA模型对数据做两个假设
- 似然概率\(\mathcal{P}(X|\mathcal{G}=k)\)近似服从高斯分布,即\