步骤
数据清洗
确立搭建模型
训练前准备
试用不同模型
模型评估
数据清洗
把数据缺失值,重复值处理到易于模型分析的样子
缺失值处理
- 首先找到含有缺失值的特征
train.isnull().mean()
-
将含缺失值的特征分为分类变量与连续变量
-
处理缺失的分类变量
# 对分类变量进行填充
train['Cabin'] = train['Cabin'].fillna('NA')
train['Embarked'] = train['Embarked'].fillna('S')
- 处理缺失的连续变量
# 对连续变量进行填充
train['Age'] = train['Age'].fillna(train['Age'].mean())
处理分类变量
data = pd.get_dummies(data)
确立搭建模型
在选定baseline之前需要先确定
- 监督学习/无监督学习
- 任务
- 数据样本,特征的稀疏性
- 比较几个baseline的泛化性
训练前准备
切割训练集和测试集
# 对数据集进行切割
X_train