针对统计机器学习中各模型特点,作下总结,当做复习;
从生成模型和判别模型考虑,生成模型即学习随机变量X,Y的联合概率分布P(X,Y),然后由贝叶斯公式计算得到P(Y|X),典型生成模型有朴素贝叶斯、高斯判别分析、贝叶斯信念网络、隐马尔科夫;判别模型即直接学习条件概率P(Y|X)或者决策函数f(X),典型判别模型有感知机、k近邻法、决策树、逻辑斯谛回归、最大熵、支持向量机、提升方法、条件随机场;
生成方法的特点:生成方法的学习收敛快,即当样本容量增加的时候,学到的模型可以更快地收敛,当存在隐变量时,仍可以用生成学习方法(隐马尔科夫、混合高斯),判别模型则无法直接学习。
判别方法的特点:判别方法直接学习的是条件概率P(Y|X)或者决策函数f(X),直接面对预测,学习的准确率往往更高;
下面针对具体各模型的特点进行阐述
1、决策树,作为随机森林和GBDT的基础;它在具体实现的时候可以分为ID3(在特征选择基于信息增益),C4.5(信息增益率),CART(回归时选择平方误差and 分类时选择基尼指数);它作为一种构建模型的非参数方法,不需要任何先验假设,不需要假定类和其他属性满足一定的概率分布;找到最有的决策树一般是NP完全问题,一般采用启发式的方法进行搜索;模型一断建立好,训练速度快;对于噪声具有相当好的鲁棒性;冗余属性不会对准确率产生影响,个人感觉不相关属性也不会造成太大影响,最好在用决策树时,对不相关属性进行剔除;可能会产生数据碎片的问题,故在样本数小于特定阈值应