Pandas 是 Python 的核心数据分析支持库,提供了快速、灵活、明确的数据结构,旨在简单、直观地处理关系型、标记型数据。
数据结构:
Series:一维数组,与Numpy中的一维array类似。
Pandas:二维的表格型数据结构。
一、Pandas的安装
pip install pandas
二、科学计算库Numpy
三、Pandas的数据分析
四、DataFrame
五、Pandas索引操作及高级索引
1.reindex()作用是对原索引和新索引进行匹配
2.索引操作
2.1Series索引操作
如果希望获取某个数据,既可以通过索引的位置来获取,也可以使用索引名称来获取
2.2DataFrame索引操作
DataFrame 既包含行索引,也包含列索引,行索引是通过index进行获取,列索引是通过columns获取
2.3关于loc与iloc
- loc:基于标签索引,既包含起始索引,又包含结束索引
- iloc:基于位置索引,只包含起始索引,不包含结束索引
loc只能使用字符标签来索引数据,而不能使用整数标签来索引数据
iloc只能使用整数来索引数据,而不能使用字符串来索引数据
3.数据排序
3.1按索引排序
3.2按值排序 sort_values()
六、统计计算与描述
1.常用的统计计算
- sum 计算和
- mean计算平均值
- max、min获取最大值和最小值
- idxmax、idxmin 获取最大和最小索引值
- count 计算非NaN值的个数
- head 获取前N个值
- var 样本值的方差
2.统计描述
七、层次化索引
1.使用MultiIndex类的方法创建一个层次化索引
1.1通过from_tuple()方法创建MultiIndex对象
1.21.2通过from_arrays()方法创建MultiIndex对象
1.3通过from_product()方法创建MultiIndex对象
2.层次化索引的操作
3.排序分层
八、读写文件操作
九、数据预处理
1.数据清洗
2.重复值处理
duplicated()
3.更改数据类型
十、数据合并
十一、数据重塑造
十二、数据转换