import pandas as pd
df=pd.DataFrame({'a':['1','2','3','4','2','7'],
'b':['3','4','5','6','7','5'],
'c':['5','7','9','8','4','9']})
print(df)
结果:
我们可以观察到:a列中,有值‘2’是重复的。
我们通过python验证下:
import pandas as pd
df=pd.DataFrame({'a':['1','2','3','4','2','7'],
'b':['3','4','5','6','7','5'],
'c':['5','7','9','8','4','9']})
#print(df)
k=df[df['a'].duplicated(keep=False)] #"first", "last" or False
print(k) #a列中有重复的值,所在的数据行
结果:
如果要逆向获取不重复的数据:则加上符号~
如果是要将重复的行,保留首次出现的,则keep参数为‘first’;
如果是要将重复的行,保留最后出现的,则keep参数为‘last’。