1:提出问题
2:查看数据类型,是否有缺失值(age和cabin那里有缺失值)
#年龄要进行一个缺失值的处理
3:查看数据的摘要信息pd.describ
4:清理数据,处理缺失值
#设置读文件,处理Null的值
df=pd.read_csv('./train.csv')
age_mean=df['Age'].mean()
df['Age']=df['Age'].fillna(age_mean)
print(df['Age'])
5:处理性别数据(以便稍后绘制直方图)
#用def和apply的方法
df=pd.read_csv('./train.csv')
def Sex_change(Sex):
if Sex=='Male':
return 0
else:
return 1
df['Sex']=(df['Sex'].apply(Sex_change))
#用map方法来映射
df=pd.read_csv('./train.csv')
df['Sex']=df['Sex'].map({'male':0,'female':1})
print(df['Sex'])
6:性别对生还率的影响
#设置读文件,处理Null的值
df=p