import pandas as pd import numpy as np data = pd.read('',encodings='gbk')#gbk中文显示 print(data.info())#查看数据信息 #1数据清洗 #整列空值的,或某行有一个以上的空值 #重复值 data = data.duplicates(keep = 'frist',inplace = True)#删除重复数据,keep第一行,true且为替换原数据 #缺失值 data.dropna(axis = 0,how = 'any')#axis =0 删除行,how=any#表示存在一个就删除整行,若为all则全部空才删除 #删除整行 data.drop(columns = ['订单行'],inplace = True)#若删除后再运行会报错, #删除数据之后index索引列混乱,需要更新index data = data.reset_index(drop=True,inplace=True)#drop=True删除原索引,并重置 #格式调整(金额单位不一致(万元,元,无单位。。。), # 且有错误符号(小数位是逗号,要改成点),数据类型要是int、float才能计算) #先定义处理函数 def data_deal(number): if number.find('万元') !=-1:#找到带万元的金额 float(number[:number.find('万元')].replace(',','.'))*10000 #number[:number.find('万元')]#number切片,从开头,取到找到
物流数据分析
最新推荐文章于 2023-10-12 16:51:47 发布
这篇博客主要介绍了物流数据分析的过程,包括数据清洗、重复值处理、缺失值处理、格式调整、异常值处理和数据分组。使用Python的pandas库,对订单数据进行了详细的操作,如删除重复和空值行,将金额单位统一,处理异常值,计算交货率和各种反馈率。最后,通过排序展示了不同区域的退货率、返修率和合格率。
摘要由CSDN通过智能技术生成