数据挖掘竞赛-员工离职预测训练赛

最新推荐文章于 2021-09-10 21:19:08 发布

周先森爱吃素

最新推荐文章于 2021-09-10 21:19:08 发布

阅读量2.4k

点赞数 6

分类专栏：数据分析与挖掘文章标签：员工离职预测训练赛

本文链接：https://blog.csdn.net/zhouchen1998/article/details/89054512

版权

数据分析与挖掘专栏收录该内容

22 篇文章 7 订阅

订阅专栏

员工离职预测

简介

DC的一道回归预测题。是比较基础的分类问题，主要对逻辑回归算法的使用。核心思路为属性构造+逻辑回归。

过程

数据获取

报名参与比赛即可获得数据集的百度网盘地址，这个比赛时间很久，随时可以报名。

数据探索

无关项
- EmployeeNumber为编号，对建模是干扰项，删除即可。
- StandardHours和Over18全数据集固定值，没有意义，删除。
- 相关性高
相关图

可以发现，有两项相关性极高，删除其中一个MonthlyIncome。

数据预处理

one-hot编码
- 对几个固定几个取字符串值的特征进行one-hot编码
属性构造
- 特征数目较少，暴力拼接不同属性，构造新属性

数据挖掘建模

既是回归赛又是分类题，很明显就是使用逻辑回归（LR）模型。但是还是使用未调参的几个基础模型进行交叉验证，发现LR较高，加上其他模型调参麻烦，就没有多加研究。

# 多模型交叉验证
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier, GradientBoostingClassifier
import sklearn.neural_network as sk_nn
from sklearn.model_selection import cross_val_score
models = {
   'LR': LogisticRegression(solver='liblinear', penalty='l2', C=1),
   'SVM': SVC(C=1, gamma='auto'),
   'DT': DecisionTreeClassifier(),
   'RF' : RandomForestClassifier(n_estimators=100),
   'AdaBoost': AdaBoostClassifier(n_estimators=100),
   'GBDT': GradientBoostingClassifier(n_estimators=100),
   'NN': sk_nn.MLPClassifier(activation='relu',solver='adam',alpha=0.0001,learning_rate='adaptive',learning_rate_init=0.001, max_iter=1000)  
}

for k, clf in models.items():
   print("the model is {}".format(k))
   scores = cross_val_score(clf, x_train, y_train, cv=10)
   print(scores)
   print("Mean accuracy is {}".format(np.mean(scores)))
   print("*" * 100)

对LR模型进行网格搜索调参，发现默认参数即可有不错的平台验证率。

# 网格搜索调参
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LogisticRegression
penaltys = ['l1', 'l2']
Cs = np.arange(1, 10, 0.1)
parameters = dict(penalty=penaltys, C=Cs )
lr_penalty= LogisticRegression(solver='liblinear')
grid= GridSearchCV(lr_penalty, parameters,cv=10)
grid.fit(x_train,y_train)
grid.cv_results_
print(grid.best_score_)
print(grid.best_params_)