一、用groupby统计然后筛选重复值 使用groupby报错 报错类型:Wrong number of items passed 7, placement implies 报错语句:df['num'] = df.groupby('name').count() 表格入下:计数之后生成了多列数据,大概类似这样 看了一下解释,是说生成了多列,我用一列来盛放这个数据是不对的;其实groupby之后已经生成了一个新的dateframe了,所以这样命名是错误的;
改为df1 =df['num'] = df.groupby('name').count()就行了
import pandas as pd
df = pd.read_excel(r'D:\test\classify_all_data_simplified_version.xlsx')
df1 = df.groupby('corr_p_nm').count()
df1['num'] = pd.to_numeric(df1['corr_p_ind'])
condition = 'num>1'
df2 = df1.query(condition)
二、 获取重复行
这里很奇怪,为什么中文数据姓名的数据不完全重复也被筛选出来了,不理解
这里注意科学计数法,后面加一个\t 制表符才行
df. duplicated这个函数后续再继续学叭
import pandas as pd
df = pd.read_excel(r'D:\test\classify_all_data_simplified_version.xlsx')
# 直接获取重复行
df1 = df[df.duplicated(subset = 'corr_p_nm')]
df1['doc_nbr'] = df1['doc_nbr'].astype(str)+'\t'
df1.to_csv(r'D:\test\chongfushuju4.csv',encoding = 'gbk')