Pandas 合并数据

最新推荐文章于 2023-08-10 12:02:05 发布

夕麻

最新推荐文章于 2023-08-10 12:02:05 发布

阅读量922

点赞数 2

分类专栏： Pandas 简单入门文章标签： python

本文链接：https://blog.csdn.net/weixin_45735361/article/details/104277572

版权

本文深入探讨了Pandas中的数据合并操作，包括`pd.concat`和`merge`函数的使用。详细介绍了如何处理重复索引，如何根据axis进行合并，以及如何处理不同列名的合并。还讲解了一对一、多对一、多对多的连接方式，以及join参数、on、left_on、right_on、left_index、right_index和how参数的作用。最后提到了如何自定义重复列名的后缀。

摘要由CSDN通过智能技术生成

合并数据是对数据集合的合，是基本操作之⼀，也是我们处理大量数据的核⼼操作，本章主要研究数据的合并操作。

# 准备数据
import numpy as np
import pandas as pd


def make_df(cols, ind):
 '''⽣成⼀个简单的DataFrame数据'''
 data = {
   c:[str(c) + str(i) for i in ind] for c in cols}

 return pd.DataFrame(data, ind)
# 测试函数
df = make_df("ABC", range(5))
print(df)

  A  B  C
0 A0 B0 C0
1 A1 B1 C1
2 A2 B2 C2
3 A3 B3 C3
4 A4 B4 C4

concat

通过pandas的concat能实现简单的数据合并。

pd.concat实现简单的Series和DataFrame的合并

# 简单的合并
s1 = pd.Series(list("ABC"), index =[1, 2, 3])
s2 = pd.Series(list("DEF"), index =[4, 5, 6])
s = pd.concat([s1, s2])
print("合并后: \n", s)

合并后:
 1 A
2 B
3 C
4 D
5 E
6 F
dtype: object

DF合并

df1 = make_df("ABC", [1, 2, 3])
df2 = make_df("DEF", [4, 5, 6])
print("df1 = \n", df1)
print("\n df2 = \n", df2)

df1 =
 A B C
1 A1 B1 C1
2 A2 B2 C2
3 A3 B3 C3
 df2 =
 D E F
4 D4 E4 F4
5 D5 E5 F5
6 D6 E6 F6

对两个df进行合并

df3 = pd.concat([df1, df2])
print("\n df3 = \n", df3)

 df3 =
 A B C D E F
1 A1 B1 C1 NaN NaN NaN
2 A2 B2 C2 NaN NaN NaN
3 A3 B3 C3 NaN NaN NaN
4 NaN NaN NaN D4 E4 F4
5 NaN NaN NaN D5 E5 F5
6 NaN NaN NaN D6 E6 F6

FutureWarning: Sorting because non-concatenation axis is not aligned. A future version
of pandas will change to not sort by default.
To accept the future behavior, pass 'sort=False'.
To retain the current behavior and silence the warning, pass 'sort=True'.

对于这种排序，因为非级联轴不对齐的情况，我们也会获得相应的警告

合并的时候同样可以指定axis

df4 = pd.concat([df1, df2], axis=1)
print("\n df4 = \n", df4)

 df4 =
 A B C D E F
1 A1 B1 C1 NaN NaN NaN
2 A2 B2 C2 NaN NaN NaN
3 A3 B3 C3 NaN NaN NaN
4 NaN NaN NaN D4 E4 F4
5 NaN NaN NaN D5 E5 F5
6 NaN NaN NaN D6 E6 F6

重复索引的处理

重复索引在合并过程中是默认保留的，DataFrame也允许重复索引值的出现，但会熬成混淆，我们对重复索引的处理主要包括:

捕捉异常, 需要设置参数 verify_integrity
或略，需要设置参数 ignore_index
增加多级索引，需要设置参数 keys

# 准备数据
df1 = make_df("AB", [0,1])
df2 = make_df

最低0.47元/天解锁文章

夕麻

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录