详细介绍一下python中的pandas库及其常用的语法和功能

Allureye

已于 2024-03-21 20:11:30 修改

阅读量7

点赞数

分类专栏：？？？文章标签： python pandas 开发语言

于 2023-10-14 12:10:49 首次发布

本文链接：https://blog.csdn.net/weixin_65520839/article/details/133823609

版权

？？？专栏收录该内容

29 篇文章 0 订阅

订阅专栏

Pandas 是一个强大的数据分析库，它为 Python 提供了数据结构和数据分析工具，使得数据操作更加简单和高效。以下是 Pandas 的一些常用语法和功能：

数据结构：
- DataFrame：类似于电子表格的二维数据结构，用于存储和操作表格数据。
- Series：类似于一维数组，用于存储一列数据，是 DataFrame 的基本构建块。
数据导入与导出：
- 从文件（如 CSV、Excel、SQL 数据库）中读取数据：pd.read_csv(), pd.read_excel(), pd.read_sql()
- 数据导出到文件：to_csv(), to_excel()
数据查看和处理：
- head(), tail(): 查看数据的前几行或后几行。
- shape: 获取数据的形状（行数和列数）。
- info(): 查看数据的信息，包括列数据类型和缺失值。
- describe(): 生成描述性统计信息，如均值、标准差等。
- value_counts(): 统计唯一值的频数。
- isnull(), notnull(): 检查缺失值。
- 数据筛选和过滤：使用布尔索引。
数据选择和操作：
- 列选择：dataframe['列名'] 或 dataframe.列名
- 行选择：dataframe.loc[] 或 dataframe.iloc[]
- 列添加和删除：dataframe['新列'] = ..., dataframe.drop('列名', axis=1)
- 数据排序：sort_values()
- 数据分组和聚合：groupby(), agg()
数据清洗和处理：
- 缺失值处理：fillna(), dropna()
- 重复值处理：duplicated(), drop_duplicates()
- 数据类型转换：astype()
- 文本数据处理：使用字符串方法，如 str.contains(), str.replace()
数据计算：
- 基本统计：mean(), sum(), min(), max()
- 数据透视表：pivot_table()
- 绘图和可视化：整合了 Matplotlib，可以轻松绘制图表。
时间序列分析：
- Pandas 对时间序列数据有很好的支持，可以进行日期和时间的处理，如日期范围生成、时间索引等。
数据合并与连接：
- concat(): 沿特定轴连接多个数据框。
- merge(): 执行 SQL 样式的数据连接操作。