一、常用算法及优缺点介绍
逻辑回归优点:简单易理解,模型的可解释性非常好,从特征的权重可以看到不同的特征对最后结果的影响
缺点:不能用Logistic回归去解决非线性问题,因为Logistic的决策面是线性的;
决策树优点:简单直观,生成的决策树可以可视化展示,数据不需要预处理,不需要归一化,不需要处理缺失数据
缺点:决策树算法非常容易过拟合,导致泛化能力不强
二、集成方法主要包括Bagging和Boosting。常见的基于Baggin思想的集成模型有:随机森林、基于Boosting思想的集成模型有:Adaboost、GBDT、XgBoost、LightGBM等。
三、数据集划分总结:
对于数据量充足的时候,通常采用留出法或者k折交叉验证法来进行训练/测试集的划分;
对于数据集小且难以有效划分训练/测试集时使用自助法;
对于数据集小且可有效划分的时候最好使用留一法来进行划分,因为这种方法最为准确
四、模型调参:
1. 贪心调参
2. 网格搜索:
3、贝叶斯调参