在Python的Panda包中使用merge可合并两个数据库。较常用的格式为
import pandas as pd
pd.merge(数据集1名称, 数据集2名称, how='连接方式', on='关键字段')
1. 内连接
此时连接方式填inner,即
pd.merge(数据集1名称, 数据集2名称, how='inner', on='关键字段')
它的含义是:在合并后的文件中,只保留关键字段相同的那些行,且关键字段相同的排在一起,各关键字段的出现顺序与数据集1中各不同的关键字段首次出现的顺序相同。
特别地,当同一个关键字段在任一个数据集(1或2)中的不同行重复出现时,其后面的各列采用穷举组合的方式生成(所有笛卡尔积)(如:关键字段为学号,学号0001的人在数据集1中重复出现2次,在数据集2中重复出现3次,则合并后的数据集中它出现2*3=6次)。
2. 外连接
此时连接方式填outer,即
pd.merge(数据集1名称, 数据集2名称, how='outer', on='关键字段')
它的含义是:在inner的基础上,把关键字段不相同的那些行展示在合并后文件的最后,列缺失用缺失值&#x