在大部分的数据分析里面,直接获取的数据都会存在一些问题,比如缺失值,异常值等,在进行深度分析前都需要对这些数据进行预处理。
读取并初步查看数据
读取数据后查看数据特征列,
首先筛选出分析所需要的列,然后再对数据进行描述统计(describe)和箱线图(boxplot),查看数据的缺失情况,异常值分布情况。但是在特征量很多时并不适合用图查看。
在进行数据统计时,在spyder中为了显示所有行和列,会需要用到两行语句:
pd.set_option(‘display.max_rows’,None) #显示所有行
pd.set_option(‘display.max_columns’,None) #显示所有列
import pandas as pd
pd.set_option('display.max_rows',None) #显示所有行
pd.set_option('display.max_columns',None) #显示所有列
filename='E:\python总结\实例数据\数据预处理之空值与异常值\克旗已合并数据.csv'
data=pd.read_csv(filename,index_col=0,engine='python') #读取数据,并将时间设置为索引
data.columns
Index(['WS0', 'WS1', 'WS2', 'WS3', 'WS4', 'WS5'], dtype='object')
所有的列名称均属于分析范畴,因此不需要进行列筛选
查看数据并删除重复数据
data.shape
Out[21]: (29, 6)
data.index.is_unique
Out[