数据合并:即以 concate 和 merge 操作为主的多组数据的拼接操作
- concate重复索引的处理:
- 捕捉异常,需要设置参数verify_integrity
- 忽略重复值,需要设置参数ignore_index
- 增加多级索引,需要设置参数key
- merge:
- Merge合并对重复索引的处理类似SQL中的链接合并,需要根据不同的情况进行处理
- 通常有:
- 1:1
- 1:N
- N:N
累计:累计是对数据进行的一系列以统计分析为主的操作
- sum:求和
- mean:平均数
- median:中位数
- min:最小值
- max:最大值
- count:计数
- first/last:第一项和最后一项
- std:标准差
- var:方差
- mad:均值绝对方差
- prod:所有项乘积
分组:Pandas利用groupby对数据进行分组,分组往往紧跟对数据的其他累计操作,groupby的含义和sql的一致
- Groupby的核心思想是:
- spilt:分割
- applay:应用
- combine:组合
- Groupby的结果是一个抽象类型,可以看做是多个DataFrame的组合
透视表:
- Pandas中透视表的含义跟Excel类似,即为了完成数据分析对数据重新找一定规则进行“整型”后形成的数据结果
- 透视表只是方便处理,并不是因为不使用透视表处理不了