数据处理中遇到的函数

最新推荐文章于 2022-11-14 15:40:52 发布

bo666666

最新推荐文章于 2022-11-14 15:40:52 发布

阅读量706

点赞数

分类专栏：数据处理

本文链接：https://blog.csdn.net/weixin_43949714/article/details/107361193

版权

数据处理专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1.读数据
test_data=pd.read_csv(‘D:/dataset/Titanic/test.csv’)

2.看数据
train_data.head()看前五行
train_data.info()看统计

3.看哪些列有null
train_data.isnull().sum()

4.填充缺失值
train_data[‘Age’].fillna(train_data[‘Age’].mean(), inplace=True)(这里是填充平均值)

5.改变值（比如’male’变成0)
train_data[‘Sex’].replace(‘male’,1,inplace=True)
train_data[‘Embarked’].replace([‘S’,‘C’,‘Q’],[0,1,2],inplace=True)

6.网格搜索

rfc_best=RandomForestClassifier()#随机森林
params = {'n_estimators':list(range(50,300,50)),'max_depth':list(range(2,10,2))}
gsearch = GridSearchCV(rfc_best,params,n_jobs=-1,cv = 5,verbose=1)
gsearch.fit(train_data,train_target)

7.写答案

predictions =gsearch.predict(x_test)
submission = pd.DataFrame({'PassengerID' : test_data.PassengerId , 'Survived': predictions.astype(np.int32)})
submission.to_csv(r'D:/dataset/Titanic/rfc_best_submission.csv',index = False)

8.train_test_split

X_train,X_test, y_train, y_test =sklearn.model_selection.train_test_split(train_data,train_target,test_size=0.4, random_state=0,stratify=y_train)

bo666666

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
数据处理中遇到的函数

1.读数据test_data=pd.read_csv(‘D:/dataset/Titanic/test.csv’)2.看数据train_data.head()看前五行train_data.info()看统计3.看哪些列有nulltrain_data.isnull().sum()4.填充缺失值train_data[‘Age’].fillna(train_data[‘Age’].mean(), inplace=True)(这里是填充平均值)5.改变值（比如’male’变成0)train_da
复制链接

扫一扫