想要处理Excel中带有缺损值和重复值的原始数据
一、缺损值
把Excel文件读取为list
import pandas as pd area = pd.read_excel('filename.xlsx') area = area.values.tolist() print(area)
得到结果,发现缺损值格式为[' nan', nan, nan]
定义如下函数,删除nan值
def del_nan(lis): x = 0 while x < len(lis): if lis[x][0] == ' nan': del lis[x] x = x + 1 return lis
area = del_repeat(area)
最终返回的area列表中已删去缺损值
二、重复值
原本想使用set方法(6条消息) python中删除列表中重复元素_DawN、的博客-CSDN博客_python删除列表重复元素
后来发现set集合不能添加类型为list的元素。
于是采用list.append方法
def del_repeat(lis): lt = [] for item in lis: if item not in lt: lt.append(item) return lt
area = del_repeat(area)
得到去除重复值的area