由于我要打的比赛是做一个二分类预测器,所以就开始找到有关的模型进行了解学习。常见的分类模型如下:
逻辑回归(Logistic Regression, LR)
朴素贝叶斯(Naive Bayes, NB)
K近邻(K-nearest neighbors, KNN)
决策树(Decision Tree, DT)
支持向量机(Support Vector Machine, SVM)
神经网络(Neural Network, NN)
K近邻算法
逻辑回归
逻辑回归容易出现过拟合的问题,导致维度灾难,参考:分类问题中的维度灾难
支持向量机:
决策树
这块的知识就比较深了,通过网上查的资料得知树模型预测的精度通常比其他模型高,因此决定这次比赛采用树模型。当然,最好的情况肯定是试验各种模型,再挑选最好的模型。
sk-learn是必须要学的一个包:sk-learn教程 中文文档
接下来就是要学习xgboost和sklearn的调参方法了。