kaggle titanic

最新推荐文章于 2020-08-22 10:47:56 发布

zzb5233

最新推荐文章于 2020-08-22 10:47:56 发布

阅读量160

点赞数

分类专栏：机器学习&深度学习文章标签： kaggle

本文链接：https://blog.csdn.net/zzb5233/article/details/82961840

版权

机器学习&深度学习专栏收录该内容

23 篇文章 0 订阅

订阅专栏

# -*- coding: utf-8 -*-
'''
Created on 2018年10月7日

@author: plus
'''

import pandas as pd
#from numpy import nan
import sys
from sklearn.feature_extraction import DictVectorizer
from sklearn.ensemble import RandomForestClassifier
from xgboost import XGBClassifier
from sklearn.cross_validation import cross_val_score
from sklearn.grid_search import GridSearchCV

train = pd.read_csv('./Datasets/Titanic/train.csv')
test = pd.read_csv('./Datasets/Titanic/test.csv')

#print(train.info())
#print(test.info())

selected_features = ['Pclass', 'Sex', 'Age', 'Embarked', 'SibSp', 'Parch','Fare']

X_train = pd.DataFrame(train[selected_features])
X_test = pd.DataFrame(test[selected_features])
y_train = train['Survived']

#print(X_train['Embarked'].value_counts())
#print(X_test['Embarked'].value_counts())

X_train['Embarked'].fillna('S', inplace=True)
X_test['Embarked'].fillna('S', inplace=True)
X_train['Age'].fillna(X_train['Age'].mean(), inplace=True)
X_test['Age'].fillna(X_test['Age'].mean(), inplace=True)
X_test['Fare'].fillna(X_test['Fare'].mean(), inplace=True)

#print(X_train.info())
#print(X_test.info())

if __name__=='__main__':
dict_vec = DictVectorizer(sparse=False)
X_train = dict_vec.fit_transform(X_train.to_dict(orient='record'))
X_test = dict_vec.transform(X_test.to_dict(orient='record'))
#print(dict_vec.feature_names_)

rfc = RandomForestClassifier()
cross_val_score(rfc, X_train, y_train, cv=5).mean()
rfc.fit(X_train,y_train)
rfc_y_predict = rfc.predict(X_test)
rfc_submission = pd.DataFrame({'PassengerId': test['PassengerId'], 'Survived': rfc_y_predict})
rfc_submission.to_csv('./Datasets/Titanic/rfc_submission.csv', index=False)



xgbc = XGBClassifier()
cross_val_score(xgbc, X_train, y_train, cv=5).mean()
xgbc.fit(X_train, y_train)
xgbc_y_predict = xgbc.predict(X_test)
xgbc_submission = pd.DataFrame({'PassengerId': test['PassengerId'], 'Survived': xgbc_y_predict})
xgbc_submission.to_csv('./Datasets/Titanic/xgbc_submission.csv', index=False)


params = {'max_depth':list(range(2, 7)), 'n_estimators':list(range(100, 1100, 200)), 'learning_rate':[0.05, 0.1, 0.25, 0.5, 1.0]}
xgbc_best = XGBClassifier()
gs = GridSearchCV(xgbc_best, params, n_jobs=-1, cv=5, verbose=1)
gs.fit(X_train, y_train)
#print(gs.best_score_)
#print(gs.best_params_)
xgbc_best_y_predict = gs.predict(X_test)
xgbc_best_submission = pd.DataFrame({'PassengerId': test['PassengerId'], 'Survived': xgbc_best_y_predict})
xgbc_best_submission.to_csv('./Datasets/Titanic/xgbc_best_submission.csv', index=False)