Pandas 是一个强大的数据分析库,它为 Python 提供了数据结构和数据分析工具,使得数据操作更加简单和高效。以下是 Pandas 的一些常用语法和功能:
-
数据结构:
DataFrame
:类似于电子表格的二维数据结构,用于存储和操作表格数据。Series
:类似于一维数组,用于存储一列数据,是DataFrame
的基本构建块。
-
数据导入与导出:
- 从文件(如 CSV、Excel、SQL 数据库)中读取数据:
pd.read_csv()
,pd.read_excel()
,pd.read_sql()
- 数据导出到文件:
to_csv()
,to_excel()
- 从文件(如 CSV、Excel、SQL 数据库)中读取数据:
-
数据查看和处理:
head()
,tail()
: 查看数据的前几行或后几行。shape
: 获取数据的形状(行数和列数)。info()
: 查看数据的信息,包括列数据类型和缺失值。describe()
: 生成描述性统计信息,如均值、标准差等。value_counts()
: 统计唯一值的频数。isnull()
,notnull()
: 检查缺失值。- 数据筛选和过滤:使用布尔索引。
-
数据选择和操作:
- 列选择:
dataframe['列名']
或dataframe.列名
- 行选择:
dataframe.loc[]
或dataframe.iloc[]
- 列添加和删除:
dataframe['新列'] = ...
,dataframe.drop('列名', axis=1)
- 数据排序:
sort_values()
- 数据分组和聚合:
groupby()
,agg()
- 列选择:
-
数据清洗和处理:
- 缺失值处理:
fillna()
,dropna()
- 重复值处理:
duplicated()
,drop_duplicates()
- 数据类型转换:
astype()
- 文本数据处理:使用字符串方法,如
str.contains()
,str.replace()
- 缺失值处理:
-
数据计算:
- 基本统计:
mean()
,sum()
,min()
,max()
- 数据透视表:
pivot_table()
- 绘图和可视化:整合了 Matplotlib,可以轻松绘制图表。
- 基本统计:
-
时间序列分析:
- Pandas 对时间序列数据有很好的支持,可以进行日期和时间的处理,如日期范围生成、时间索引等。
-
数据合并与连接:
concat()
: 沿特定轴连接多个数据框。merge()
: 执行 SQL 样式的数据连接操作。
Pandas 提供了强大的数据处理和分析工具,使数据科学家、分析师和工程师能够更轻松地进行数据探索、清理和分析。这只是 Pandas 功能的一小部分,但它足以支持许多常见的数据处理任务。