import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from IPython.display import Image
#读取训练数据集
train = pd.read_csv(‘C:/Users/L/Desktop/da_data/part3/train.csv’)
train.head()
缺失值填充
- 对分类变量缺失值:填充某个缺失值字符(NA)、用最多的类别进行填充
- 对连续变量缺失值:填充均值、中位数、众数
#对分类变量进行填充
train[‘Cabin’] = train[‘Cabin’].fillna(‘Na’)
train[‘Embarked’] = train[‘Embarked’].fillna(‘S’)
#对连续变量进行填充
train[‘Age’] = train[‘Age’].fillna(train[‘Age’].mean())
#检查缺失值的比例
train.isnull().mean()
编码分类变量
#取出所有输入特征
data = train[[‘Pclass’,‘Sex’,‘Age’,‘SibSp’,‘Parch’,‘Fare’,‘Embarked’]]
#进行虚拟变量的转换
data = pd.get_dummies(data)
data.head()