数据重塑和轴向旋转:
层次化索引:
层次化索引是pandas的一项重要功能,他能使我们再一个轴上拥有多个索引
多索引可以使得Series和DataFrame相互转换:
数据旋转
T 可以直接让数据的行和列进行交换
data.T #貌似是转置矩阵
dataframe也可以使用stack和unstack,转化为层次索引的Series
data.stack() #层次化seris,具体的行数据内容
data.stack().unstack() #去除层次化,变回原样
数据分组,分组运算:
GroupBy技术:实现数据的分组,和分组运算,作用类似于数据透视表
只会对数值变量进行分组运算
group=df.groupby(df['产地'])
##分组操作,根据哪一列进行分组
group.mean().head() #分组后进行相关操作
df.groupby([df['产地'],df['年代']]).mean().head()
df['评分'].groupby([df['产地'],df['年代']]).mean()
#明确对某一个数值变量列进行操作,而不是所有的数值变量列
#根据多变量进行分组,有先后顺序
Series通过unstack方法转化为dataframe——会产生缺失值
离散化处理:
合并数据集:
merge方法举例:
(3)concat
将多个相同类型的数据集进行批量合并
dff=pd.concat([df1,df2,df3],axis=0)
##默认axis=0 增加行数,axis=1增加列数,默认是纵向连接。