Pandas 基于NumPy开发,主要数据结构是 Series (一维数据)与 DataFrame (二维数据)。主要功能:
- 数据读取:读取文本文件、CSV 等支持分隔符的文件、Excel 文件、数据库等
- 数据预处理:特征提取get_dummies
- 处理缺失数据:表示为 NaN;
- 插入或删除: DataFrame 等多维对象的列;
- 绘图 :将DataFrame按列绘图plot;
- 数据对齐:显式地将对象与一组标签对齐;
- 分组:拆分-应用-组合数据集,聚合;
- 转换数据:把 Python 和 NumPy 数据结构里不规则、不同索引的数据转换为 DataFrame 对象;
- 数据操作:基于智能标签,对数据集切片、索引(loc,iloc)、子集分解等操作,合并(merge)、连接(join),重塑(reshape)、透视(pivot)数据集,计算相关系数
- 轴支持结构化标签:一个刻度支持多个标签;
- 时间序列:支持日期范围生成、频率转换重采样(resample)、移动窗口统计(rolling)、移动窗口线性回归、日期位移等时间序列功能。
中文官方参考手册:https://www.pypandas.cn/docs/