查看dataframe字段信息
a.info()
查看dataframe统计信息
a.describe()
删除dataframe列
del df['b1']
df.drop(['b1','b2'],axis=1,inplace=True) #inplacez=True 在原对象上进行操作
获取dataframe部分列
df.iloc[:,0:3]
df.iloc[:,[-1]]#加[]返回的是df格式,shape是二维表,不加是serices,shape是一个向量
df[['b1','b2']]
获取dataframe的Serices
df.iloc[0,:]
df.iloc[:,1]
df['a1']
修改dataframe列名
df.columns = ['A','B']
df.rename(columns = {'a':‘A’,'b':'B'},inplace=True)
修改dataframe列类型
df['instant'] = df['instant'].astype('category')
X[['name','a']] =X[[‘name’,'a']].astype('float64')
合并
横向
pd.concat([a,a],axis=1)
纵向
pd.concat([a,a],axis=0)
替换DF中的字符串
df.replace('%','',inplace = True, regex = True)
#regex:bool或与' to_replace '相同的类型,默认为False,
#是否将' to_replace '和/或' value '解释为正则表达式。
#如果这是' ' True ' ',那么' to_replace ' *必须是一个字符串。
#否则,' to_replace '必须为' ' None ' ',
#因为该参数将被解释为正则表达式或列表、dict或正则表达式数组
异常数据处理
# 删除
# axis=0删除行 axis=1 删除列
# how = 'any' 只要出现一个就删除 how='all'全部是空值就删除
df = df.replace('?', np.nan).dropna(how='all', axis=0)
print(df)
dataframe样本采样
# df = a.sample(frac=0.66)
df = a.sample(n=5,replace=True)
print(df)
Numpy中的矩阵合并
列合并/扩展:np.column_stack()
行合并/扩展:np.row_stack()
拉直操作
numpy.ravel() 与numpy.flatten()
reshape(-1)