有时候处理数据的时候会遇到这样的情况,尽管两列合在一起后表达的意思一样,但无法直接把他们去重
因此我们可以在去重前多进行一步,把两列数据合并成 list 后去重,再把他们分开
# 1.合并数据,转换成 list
df['ls'] = list(map(lambda x,y:[x,y],df['a_attr_single'],df['b_attr_single']))
# 2.对 list 里的数据进行排序处理
df['ls'] = df['ls'].apply(lambda x:','.join(sorted(x)))
# 3. 删除被合并的两列
df.drop(columns=['a_attr_single', 'b_attr_single'], inplace=True)
# 4. 去重
df = df.drop_duplicates()
# 分开list里的数据值
df['attr1'], df['attr2'] = df['ls'].str.split(',', 1).str
Output