python 数据清洗用到两个包 numpy和pandas
Pandas的名称来自于Panel data和Python数据分析data analysis,是Python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,被作为金融数据分析工具,为时间序列分析提供了很好的支持,并于2009年底开源出来。
NumPy是Numeric Python的缩写,是Python的一种开源的数值计算扩展,可用来存储和处理大型矩阵matrix,比Python自身的嵌套列表结构要高效的多,提供了许多高级的数值编程工具,如:矩阵数据类型、矢量处理,以及精密的运算库,专为进行严格的数字处理而产生。
目录
一、了解数据
二、清洗数据
去除不需要的行、列
重新命名列
重新设置索引
用字符串操作规范列
用函数规范列
删除重复数据
填充缺失值
一、了解数据
读取数据:Date = pd.read_excel(r"数据储存位置",header=XX行) # 读取数据 (header=XX行指的是把第几行作为列名
date.head() 查看前几行默认是前5行
date.tail()
查看后n行数据,默认值是5
date.shape
查看数据维数
date.columns
查看所有列名
date.info()
查看索引、数据类型和内存信息
date.describe()
查看每列数据的基本统计值,包括计数值、均值、标准差、最小
最大值、1/4、1/2、3/4分位数。