kaggle
濯君
求知,内敛,有趣,勤静
展开
-
使用python进行数据分析和特征获取的常用函数
import pandas as pd import numpy as np def draw_missing_data_table(df): #得出缺失数据占总数的百分比 total=df.isnull().sum().sort_values(ascending=False) percent=(df.isnull().sum()/df.isnull().count()).sor...转载 2019-03-22 09:46:29 · 519 阅读 · 0 评论 -
数据挖掘--数据预处理(1)
import pandas as pd train_pd = pd.read_csv(path+'training.csv') #读取数据 test_pd = pd.read_csv(path+'sorted_test.csv') train_pd.info()#查看数据类型 train_pd.describe()#数值型变量的统计信息 train_pd.describe(include=['...原创 2019-05-03 12:02:31 · 925 阅读 · 0 评论 -
Kaggle--处理缺失值
一:按缺失百分比去除缺失值过多的特征 #缺失超过77%的特征被去除 many_null_cols = [col for col in train_x.columns if train_x[col].isnull().sum() / train_x.shape[0] > 0.77] many_null_cols_test = [col for col in test.columns if te...原创 2019-09-05 11:49:00 · 682 阅读 · 0 评论