分类:
1.kNN
优点:精度高、对异常值不敏感、无数据输入假定。
缺点:计算复杂度高、空间复杂度高。
适用数据范围:数值型和标称型。
2.决策树
优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特称数据。
缺点:可能会产生过度匹配问题。
适用数据类型:数值型和标称型。
ID3可以用于划分标称型数据。构建决策树时,通常采用递归的方法将数据集转化成决策树。还有其他决策树的构造方法:C4.5、CART
3.朴素贝叶斯
优点:在数据较少的情况下仍然有效,可以处理多类别问题。
缺点:对于输入数据的准备方式较为敏感。
适用数据类型:标称型数据。
4.Logistic回归
优点:计算代价不高,易于理解和实现。
缺点:容易欠拟合,分类精度可能不高。
适用数据类型:数值型和标称型数据。
5.SVM
优点:泛化错误率低,计算开销不大,结果易解释。
缺点:对参数调节和核函数的选择敏感,原始分类器不加修改仅适用于处理二类问题。
使用数据类型:数值型和标称型数据。
回归:
普通最小二乘法,局部加权线性回归,缩减法----岭回归
树回归:
优点:可以对复杂和非线性的数据建模。
缺点:结果不易理解。
使用数据类型:数值型和标称型。