数据规范化:合并、清洗、过滤
pandas和python标准库提供了一套高级、灵活的、高效的核心函数和算法将数据规整化为你想要的形式
本次博客主要介绍:
合并数据集:merge()/concat() 等方法
merge
参数 | 说明 |
---|---|
left | 参与合并的左侧DataFrame |
right | 参与合并的右侧DataFrame |
how | 连接方式:inner(默认),还有,outer,left,right |
on | 用户连接的列名,必须同时存在左右两个DataFrame对象中,如果位指定,则以left和right列名的交集作为连接键 |
left_on | 左侧DataFrame中用作连接键的列 |
right_on | 右侧DataFrame中用作连接键的列 |
left_index | 将左侧的行索引引用作其连接键 |
right_index | 将右键的行索引作其连接键 |
sort | 根据连接键对合并后的数据进行排序,默认为True,有时在处理大数据集时,禁用该选择可获得更好的性能 |
concat
参数 | 说明 |
---|---|
objs | 参与连接的列表或字典,且列表或字典的对象是pandas数据类型,唯一必须给定的参数 |
axis=0 | 指明连接的轴向,0是纵轴,1是横轴,默认是0 |
join | ‘inner’(交集),‘outer’(并集),默认是‘outer’指明轴向索引的索引是交集还是并集 |
keys | 与连接对象有关的值,用于形成连接轴向上的层次化索引(外层索引),可以是任意值的列表或数组、元组数据、数组列表(如果将levels设置成多级数组的话) |