数据挖掘十大算法:
1.EM算法;
2.朴素贝叶斯算法;
3.CART决策树;
4.支持向量机;
5.AdaBoost;
6.k均值聚类;
7.k近邻算法;
8.Apriori算法;
9.PageRank算法;
10.C4.5算法
1.EM算法
用于隐参数估计,计算过程使用极大似然估计:
1.随机假设1个可能的后验分布;
2.反向推断因参数的可能取值λ;
3.再由λ计算后验概率;
4.再计算新λ……
5.将各个步骤λ结果加权平均,得到可能值
2.朴素贝叶斯
利用先验概率推导后验概率:
由数据集已知情况根据极大似然得到先验概率
问题:随着k增加,计算量指数升高
处理:使用马儿可夫模型,减少参数依赖性
涉及算法:贝叶斯网、半朴素贝叶斯分类器、
吉布斯采样(贝叶斯网推断后验概率的一种近似方法)
因参数采用EM算法
3.CART决策树
4.支持向量机
采用平面分类,使用核函数方法降低计算复杂度
相关:SMO算法、核函数、SVM