清洗数据
一、检测与处理重复值
1.记录重复
①利用list去重
import pandas as pd
detail=pd.read_csv('../数据分析/detail.csv',index_col=0,encoding='gbk')
#定义去重函数
def delRep(list1):
list2=[]
for i in list1:
if i not in list2:
list2.append(i)
return list2
#去重
dishes=list(detail['dishes_name']) #将dishes_name从数据框中提取出来
print('去重前菜品总数为:',len(dishes))
dish=delRep(dishes) #使用函数去重
print('去重之后的菜品总数为:',len(dish))
②使用set的特性去重
print('去重前菜品总数为:',len(dishes))
dish_set=set(dishes) #利用set 的特性去重
print('去重之后的菜品总数为:',len(dish_set))
③ 使用drop_duplicates方法 去重
#对dishes_name 去重
dishes_name=detail['dishes_name'].drop_duplicates()
print('drop_duplicates方法去重之后:',len(dishes_name))