泰坦尼克号数据分析(适合新手)(2)

一、查看数据

import numpy as np 
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
plt.style.use('fivethirtyeight')
import warnings
warnings.filterwarnings('ignore')
%matplotlib inline
# 导入数据
data=pd.read_csv(r"C:\英雄时刻\Python\Titanic_Rescue_Prediction-master\train.csv")
data.head()


二、处理缺失值

# 看看有木有缺失值
data.isnull().sum()
data.describe()
#用众数填充这一缺失值
data.Embarked.fillna(data['Embarked'].mode())
#用'U0'填充这一缺失值
train_data['Cabin'] = data.Cabin.fillna('U0')    
#用随机森林处理年龄这一缺失值
from sklearn.ensemble import RandomForestRegressor

age_df = data[['Age','Survived','Fare', 'Parch', 'SibSp', 'Pclass']]   
age_df_notnull = age_df.loc[(data['Age'].notnull())]      #提取“age”不为空的所有数据
age_df_isnull = age_df.loc[(train_data['Age'].isnull())]  #提取“age”为空的所有数据
X = age_df_notnull.values[:,1:]               #x就是除了“age”以外的所有行
Y = age_df_notnull.values[:,0                  #y就是“age”行

# use RandomForestRegression to train data
RFR = RandomForestRegressor(n_estimators=1000, n_jobs=-1)
RFR.fit(X,Y)
predictAges = RFR.predict(age_df_isnull.values[:,1:])   #用非空“age”预测“age”的空值
train_data.loc[train_data['Age'].isnull(), ['Age']]= predictAges

三、数据转换

data['Initial']=0
for i in data:
    data['Initial'].unique()   #提取 'Initial'中的所有X
data['Initial'].replace(['Mlle','Mme','Ms','Dr','Major','Lady','Countess','Jonkheer','Col','Rev','Capt','Sir','Don'],['Miss','Miss','Miss','Mr','Mr','Mrs','Mrs','Other','Other','Other','Mr','Mr','Mr'],inplace=True)     #替换原来的值
data['Fare_Range']=pd.qcut(data['Fare'],4)     #对'Fare'这一连续值进行切分
data.Fare_Range.head()                  
data.groupby(['Fare_Range'])["Survived"].mean()   #求每段价格区间的  "Survived"数
data['fare_cut']=0
data.loc[data['Fare']<=7.91,'fare_cut']=0         #‘Fare’切分为四段7.91,14.454,31.0,512.329
data.loc[(data['Fare']>7.91)&(data['Fare']<=14.454),'fare_cut']=1    #‘&’是且的意思,这里是数据转换
data.loc[(data['Fare']>14.454)&(data['Fare']<=31.0),'fare_cut']=2
data.loc[(data['Fare']>31.0)&(data['Fare']<=512.329),'fare_cut']=3
data['Sex'].replace(['male','female'],[0,1],inplace=True)
data['Embarked'].replace(['S','C','Q'],[0,1,2],inplace=True)
data['Initial'].replace(['Mr','Mrs','Miss','Master','Other'],[0,1,2,3,4],inplace=True)
data.drop(['Name','Age','Ticket','Fare','Cabin','Fare_Range','PassengerId'],axis=1,inplace=True)#删除原来的数据
data.drop(['Fare_range','alone'],axis=1,inplace=True)

四、建模

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
x=data.iloc[:,1:-1]     #用索引方式提取X,y
y=data.iloc[:,0]
x_train,x_text,y_train,y_text=train_test_split(x,y,test_size=0.3)   #切分数据集
model=RandomForestClassifier(n_estimators=100)     #随机森林
model.fit(x_train,y_train)
model.score(x_text,y_text
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
泰坦尼克号数据_泰坦尼克号数据分析报告 891名乘客中遇难乘客有549⼈,占61.6%,⽣还乘客342⼈,占38.4%.各等级船舱乘客⼈数 各等级船舱乘客⼈数 Pclass_count=titanic_data['Pclass'].value_counts().sort_index() #⽤Bar_pie()函数作条形图和饼状图 Bar_pie(Pclass_count) 三等船舱乘客最多,占55.1%;⼀等船舱次之占24.2%;⼆级船舱乘客最少,占20.7%.男⼥乘客分布情况 男⼥乘客分布情况 Sex_count=titanic_data['Sex'].value_counts() print(Sex_count) Bar_pie(Sex_count) male 577 female 314 Name: Sex, dtype: int64 男乘客有577⼈,占64.8%;⼥乘客有314⼈,占35.2%.乘客年龄分布情况 乘客年龄分布情况 In [84]: #乘客年龄分布直⽅图 #创建figure、subplot,并⽤hist作条形图 fig_Age=plt.figure(figsize=(10,5)) ax_Age=fig_Age.add_subplot(1,2,1) titanic_data['Age'].hist(bins=10,color='g',alpha=0.3,grid=False) #设置x轴刻度标签 ax_Age.set_xticks([0,10,20,30,40,50,60,70,80,90,100]) #添加标题,x轴标签,y轴标签 ax_Age.set_title('Hist plot of Age') ax_Age.set_xlabel('Age') ax_Age.set_ylabel('number of people') #乘客年龄分布箱线图 #作箱线图 plt.subplot(122) titanic_data.boxplot(column='Age',showfliers=False) #添加y轴标签 plt.ylabel('Age') plt.title('boxplot of Fare') titanic_data['Age'].describe() count 891.000000 mean 29.544332 std 13.013778 min 0.000000 25% 22.000000 50% 29.000000 75% 35.000000 max 80.000000 Name: Age, dtype: float64 乘客年龄⼤概成正态分布,平均年龄29岁多,最⼤的80岁,最⼩的不到1岁(利⽤int()取整,不到1岁的为0).兄弟姐妹、配偶在船上的 兄弟姐妹、配偶在船上的 乘客分布情况条形图 乘客分布情况条形图 #创建figure、subplot,⽤plot()作柱状图 fig_SibSp=plt.figure(figsize=(10,5)) ax_SibSp=fig_SibSp.add_subplot(1,2,1) SibSp_count=titanic_data['SibSp'].value_counts() SibSp_count.plot(kind='bar') #添加标题,x轴标签,y轴标签 ax_SibSp.set_title('Bar plot of SibSp') ax_SibSp.set_xlabel('number of SibSp') ax_SibSp.set_ylabel('number of people') #拥有各 数量的兄弟姐妹、配偶的乘客⽐例条形图 plt.subplot(122) SibSp_count.div(SibSp_count.sum()).plot(kind='bar') #添加标题,x、y轴 标签 plt.title('Ratio of people in SibSp') plt.xlabel('SibSp') plt.ylabel('ratio') 在船上没有兄弟姐妹配偶的乘客较多,占68.2%.⽗母、孩⼦在船上的乘客分布条形图 ⽗母、孩⼦在船上的乘客分布条形图 Parch_count=titanic_data['Parch'].value_counts() #创建figure、subplot,⽤plot()作柱状图 fig_Parch=plt.figure(figsize=(10,5)) ax_Parch=fig_Parch.add_subplot(1,2,1) Parch_count.plot(kind='bar') #添加标题,x、y轴标签 ax_Parch.set_title('Bar plot of Parch') ax
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值