pandas学习 第5章 合并
一、append与assign
- append方法
(a)利用序列添加行(必须指定name)
df_append = df.loc[:3,['Gender','Height']].copy()
df_append
s = pd.Series({
'Gender':'F','Height':188},name='new_row')
df_append.append(s)
(b)用DataFrame添加表
df_temp = pd.DataFrame({
'Gender':['F','M'],'Height':[188,176]},index=['new_1','new_2'])
df_append.append(df_temp)
- assign方法
该方法主要用于添加列,列名直接由参数指定:
s = pd.Series(list('abcd'),index=range(4))
df_append.assign(Letter=s)
# 可以一次添加多个列:
df_append.assign(col1=lambda x:x['Gender']*2,
col2=s)
二、combine与update
- comine方法
comine和update都是用于表的填充函数,可以根据某种规则填充
(a)填充对象
可以看出combine方法是按照表的顺序轮流进行逐列循环的,而且自动索引对齐,缺失值为NaN,理解这一点很重要
df_combine_1 = df.loc[:1,['Gender','Height']].copy()
df_combine_2 = df.loc[10:11,['Gender','Height']].copy()
df_combine_1.combine(df_combine_2,lambda x,y:print(x,y))
(b)一些例子
例①:根据列均值的大小填充
# 例子1
df1 = pd.DataFrame({
'A': [1, 2], 'B': [3, 4]})
df2 = pd.DataFrame({
'A': [8, 7], 'B': [6, 5]})
df1.combine(df2,lambda x,y:x if x.mean()>y.mean() else y)
例②:索引对齐特性(默认状态下,后面的表没有的行列都会设置为NaN)
df2 = pd.DataFrame({
'B': [8, 7], 'C': [6, 5]},index=[1,2])
df1.combine(df2,lambda x,y:x if x.mean()>y.mean() else y)
例③:使得df1原来符合条件的值不会被覆盖
df1.combine(df2,lambda x,y:x if x.mean()>y.mean() else y,overwrite=False)
例④:在新增匹配df2的元素位置填充-1
df1.combine(df2,lambda x,y:x if x.mean()>y.mean() else y,fill_value=-1)
(c)combine_first方法
这个方法作用是用df2填补df1的缺失值,功能比较简单,但很多时候会比combine更常用,下面举两个例子:
df1 = pd.DataFrame({
'A': [None, 0], 'B': [None, 4]})
df2 = pd.DataFrame({
'A': [1, 1], 'B': [3,