1、42个变量,感觉需要删掉一些
数据可视化-删除无关变量
1.1查看采访时间to_datetime、日期.date、年份.month
1.2 绘制计数柱状图,seaborn系列的countplot()
data = pd.concat([y, x], axis=1).sample(500)
sns.countplot(x='survey_type', hue='happiness',data=data)
1.3绘制百分比柱状图
import plotly.graph_objs as go
s=data[data['survey_type'].isin([2])]['happiness']
trace = [go.Pie(labels=s.value_counts().index, values=s.value_counts().values)]
fig = go.Figure(data = trace)
fig.show()
1.4 相关性矩阵
查看最相关的变量-选20个
2、数据预处理
缺失值处理simpleimputer、归一化处理、smote均衡采样(效果很差,尽量不选择)
3、lightGBM比xgboost得分好
调参之后好一点0.62但是也很低,可能得考虑集成