将不同的数据源进行合并是数据科学中最有趣的事情之一,这即包括将两个不同的数据集非常简单的拼接在一起,也包括用数据库那样的连接(join)与合并(merge)操作处理有重叠字段的数据集。Series与DataFrame都具备这类操作,Pandas的函数与方法让数据合并变得快速简单。
合并Seies 与 DataFrame 与合并Numpy数组基本相同,numpy是用np.concatenate函数将两个或两个以上的数组合并成一个数组。
import numpy as np
import pandas as pd
def make_df(cols, ind):
"""
一个简单的DataFrame
"""
data = {c : [str(c) + str(i) for i in ind] for c in cols}
return pd.DataFrame(data, ind)
# DataFrame 示例
make_df('ABC', range(3))
# 两个或两个以上的数组用numpy的函数合并成一个数组
x = [1, 2, 3]
y = [4, 5, 6]
z = [7, 8, 9]
np.concatenate([x, y, z])
#按照坐标轴合并数组列表或元组,第一个参数是需要合并的数组,axis是设置坐标轴
h = [[1, 2],
[3, 4]]
np.concatenate([h, h], axis=1)
本书来自《python数据科学手册》,详情可见原书。