# 导入第三方模块
import pandas as pd
# 读入数据
Titanic = pd.read_csv(r'test.csv')
Titanic.head()
# 删除无意义的变量,并检查剩余自字是否含有缺失值
Titanic.drop(['a','b','c','d'], axis = 1, inplace = True)
Titanic.isnull().sum(axis = 0)
#筛选符合条件的值
value = Titanic[(Titanic.a =='male')&(Titanic.b.isnull())] 写判断条件
print(pd.DataFrame(value))
#按条件删除空值行,inplace表示是否修改原始值
Titanic.dropna(subset=['A'], inplace = True)
print(Titanic)
# 填充各组中的缺失数据
a=value.fillna(value = {'A': Titanic.A[Titanic.b == 'male'].mean()}, inplace = True)
#合并数据
df=[value,Titanic]
result=pd.concat(df)
# 将数值型的转换为类别型,否则无法对其哑变量处理
Titanic.P = Titanic.P.astype('category')
# 哑变量处理
dummy = pd.get_dummies(Titanic[['S','E','P']])
to_json的使用
如果是Series转json,默认的orient是'index',orient可选参数有 {‘split','records','index'}
如果是DataFrame转json,默认的orient是'columns',orient可选参数有 {‘split','records','index','columns','values'}
json的格式如下
split,样式为 {index -> [index], columns -> [columns], data -> [values]}
records,样式为[{column -> value}, … , {column -> value}]
index ,样式为 {index -> {column -> value}}
columns,样式为 {index -> {column -> value}}
values,数组样式
table,样式为{‘schema': {schema}, ‘data': {data}},和records类似