一、KNN
算法原理:找到K个与新数据最近的样本,取样本中最多的一个类别作为新数据的类别
算法的优点 :01简单易实现。2、对于边界不规则的数据效果较好
算法的缺点:只适合小数据集、数据不平衡效果不好、必须要做数据标准化、不适合特征维度态度的数据
关于K的选取:K值的选取会影响到模型的效果
K越小的时候容易过拟合,K越大的时候容易欠拟合
二、决策树
最终形成的这棵树上,所有的叶子节点都是要输出的类别信息
所有的非叶子节点都是特征信息
优点:非常直观,可解释极强、既可以处理离散值也可以处理,连续值,还可以处理缺失值、预测速度比较快
缺点:容易过拟合、需要处理样本不均衡的问题
三、朴素贝叶斯
算法的优点
- 逻辑清晰简单、易于实现,适合大规模数据
- 运算开销小
- 预测过程快
- 对于噪声点和无关属性比较健壮
算法的缺点
- 在具体应用的时候要考虑特征之间的相互独立性再决定是否要使用该算法
四、支持向量机(SVM)
六、人工神经网络
七、XGB (实践)