Python数据科学必备工具（二）：数据分析处理库——Pandas

wq0455

于 2024-08-05 17:52:01 发布

阅读量534

点赞数 14

分类专栏：机器学习必备科学数据库文章标签： python 数据分析 pandas 机器学习

本文链接：https://blog.csdn.net/wq0455/article/details/140920246

版权

机器学习必备科学数据库专栏收录该内容

2 篇文章 0 订阅

订阅专栏

在当今数据驱动的时代，数据分析变得越来越重要。无论是企业决策、学术研究，还是个人项目，能够有效地处理和分析数据都是一项必备技能。而在Python生态系统中，Pandas库无疑是最受欢迎的数据分析工具之一。本文将深入探讨Pandas的基本功能、使用场景以及一些实用技巧，帮助您更好地掌握这一强大的库。

一、Pandas简介

Pandas是一个强大的数据分析和数据处理库，广泛应用于数据科学、机器学习和数据可视化等领域。它是基于NumPy构建的，提供了灵活且高效的数据结构，特别适合处理表格数据。Pandas的核心数据结构有两个：Series和DataFrame。

Series：一维数组，可以存储任意数据类型（整数、字符串、浮点数等），并且每个元素都有一个对应的索引。
DataFrame：二维表格数据结构，类似于电子表格或SQL表，具有行和列的标签。可以存储不同类型的数据，并且支持多种操作，如过滤、分组、聚合等。

二、Pandas的安装

（一）直接安装

在使用Pandas之前，需要确保它已经安装在你的Python环境中。可以通过以下命令安装Pandas：

pip install pandas

（二）使用镜像源安装

1.使用清华大学镜像源

清华大学提供了一个非常稳定的PyPI镜像源，你可以使用以下命令安装Pandas：

pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple

2.使用阿里云镜像源

阿里云也提供了PyPI镜像源，使用方法如下：

pip install pandas -i https://mirrors.aliyun.com/pypi/simple/

3.使用其他镜像源

如果你希望使用其他镜像源，可以参考以下几个常用的镜像源：

豆瓣镜像

pip install pandas -i https://pypi.douban.com/simple

华中科技大学镜像

pip install pandas -i https://pypi.hust.edu.cn/simple

4.配置默认镜像源

如果你希望每次都使用镜像源而不需要每次都指定，可以通过修改pip的配置文件来设置默认镜像源。

Windows系统

找到或创建配置文件：%USERPROFILE%\pip\pip.ini
添加以下内容：

[global]
index-url = https://pypi.tuna.tsinghua.edu.cn/simple

macOS/Linux系统

找到或创建配置文件：~/.pip/pip.conf
添加以下内容：

[global]
index-url = https://pypi.tuna.tsinghua.edu.cn/simple

5.验证安装

安装完成后，可以通过以下命令验证Pandas是否安装成功：

python -c "import pandas as pd; print(pd.__version__)"

如果没有错误信息，并且打印出版本号，则说明Pandas安装成功。

三、Pandas语法

（一）Pandas基本操作

1.导入Pandas库

在使用 Pandas 之前，首先需要导入它：

import pandas as pd

2.数据结构

Pandas 主要有两种数据结构：

Series：一维数组，类似于列表或字典。
DataFrame：二维表格，类似于电子表格或 SQL 表。

2.1 Series

# 创建 Series
s = pd.Series([1, 2, 3, 4])
print(s)

# 带索引的 Series
s = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
print(s)

2.2 DataFrame

# 从字典创建
data = {'A': [1, 2, 3], 'B': [4, 5, 6]}
df = pd.DataFrame(data)

# 从CSV文件创建
df = pd.read_csv('file.csv')

3.查看数据

df.head()      # 查看前5行
df.tail()      # 查看后5行
df.info()      # 查看DataFrame信息
df.describe()  # 查看统计信息

4.选择列

df['A']         # 选择单列
df[['A', 'B']]  # 选择多列

5.选择行

df.iloc[0]     # 通过位置选择行
df.loc[0]      # 通过标签选择行
df[df['A'] > 1]  # 通过条件选择行

（二）Pandas索引

1.设置索引

df.set_index('A', inplace=True)  # 设置'A'列为索引

2.重置索引

df.reset_index(inplace=True)  # 重置索引

3.多级索引

df.set_index(['A', 'B'], inplace=True)  # 设置多级索引

4.访问索引

df.index  # 获取索引
df.columns  # 获取列名

（三）groupby操作

在Pandas中，groupby 是一个非常强大的功能，用于对数据进行分组并进行聚合操作。它可以让我们根据一个或多个键将数据集分成多个组，然后对每个组应用函数，最终得到一个聚合的结果。下面是对 groupby 的详细描述：

1.基本概念

groupby 是一种数据聚合操作，主要用于数据的分组和计算。它的工作流程通常包括三个步骤：

分组（Split）：根据指定的列（或多个列）将数据分成不同的组。
应用（Apply）：对每个组应用一个函数（如求和、均值、计数等）。
合并（Combine）：将结果合并成一个新的DataFrame或Series。

2.创建示例数据

为了演示groupby的用法，我们首先创建一个示例DataFrame：

data = {
    '城市': ['北京', '上海', '北京', '上海', '广州', '广州'],
    '销售额': [100, 150, 200, 250, 300, 350],
    '年份': [2021, 2021, 2022, 2022, 2021, 2022]
}
df = pd.DataFrame(data)
print(df)

输出结果：

    城市  销售额  年份
0  北京   100  2021
1  上海   150  2021
2  北京   200  2022
3  上海   250  2022
4  广州   300  2021
5  广州   350  2022

3. 使用`groupby`进行分组

3.1 基本的分组操作

使用groupby方法，我们可以根据某一列对数据进行分组。例如，我们可以根据城市进行分组，计算每个城市的总销售额：

grouped = df.groupby('城市')['销售额'].sum()
print(grouped)

输出操作：

城市
广州    650
上海    400
北京    300
Name: 销售额, dtype: int64

3.2 多列分组

我们可以根据多列进行分组。例如，按城市和年份进行分组，计算每组的销售额总和：

grouped_multi = df.groupby(['城市', '年份'])['销售额'].sum()
print(grouped_multi)

输出结果：

城市  年份
广州  2021    300
    2022    350
北京  2021    100
    2022    200
上海  2021    150
    2022    250
Name: 销售额, dtype: int64

4. 聚合函数

4.1 使用`agg`进行自定义聚合

我们可以使用agg方法自定义多个聚合操作。例如，计算每个城市的销售额总和、平均值和最大值：

agg_result = df.groupby('城市')['销售额'].agg(['sum', 'mean', 'max'])
print(agg_result)

输出结果：

        sum   mean  max
城市                    
广州     650  325.0  350
上海     400  200.0  250
北京     300  150.0  200

4.2 使用`transform`进行转换

transform方法允许我们对分组后的数据进行转换操作，而不是聚合。例如，我们可以计算每个城市销售额的标准化值：

df['标准化销售额'] = df.groupby('城市')['销售额'].transform(lambda x: (x - x.mean()) / x.std())
print(df)

输出结果：

    城市  销售额  年份  标准化销售额
0  北京   100  2021      -0.707107
1  上海   150  2021      -0.707107
2  北京   200  2022       0.707107
3  上海   250  2022       0.707107
4  广州   300  2021      -0.707107
5  广州   350  2022       0.707107

5. 过滤分组数据

我们可以使用filter方法对分组后的数据进行过滤。例如，获取销售额总和大于400的城市：

filtered = df.groupby('城市').filter(lambda x: x['销售额'].sum() > 400)
print(filtered)

输出结果：

    城市  销售额  年份
4  广州   300  2021
5  广州   350  2022
0  北京   100  2021
1  上海   150  2021
2  北京   200  2022
3  上海   250  2022

6.组合分组和聚合

我们可以将多个操作组合在一起，形成复杂的数据分析。例如，计算每个城市在2021年的销售额总和和平均值：

result = df[df['年份'] == 2021].groupby('城市')['销售额'].agg(['sum', 'mean'])
print(result)

输出结果：

        sum   mean
城市               
广州     300  300.0
上海     150  150.0
北京     100  100.0

（四）数值运算

在Pandas中，数值运算是数据分析中非常重要的一部分。Pandas提供了丰富的功能来处理和运算数值数据。以下是Pandas数值运算的详细描述，包括常用的操作和语法示例。

1.基本运算

Pandas支持基本的算术运算，包括加、减、乘、除等操作。可以直接对Series或DataFrame进行运算。

1.1 加法

import pandas as pd

# 创建两个Series
s1 = pd.Series([1, 2, 3])
s2 = pd.Series([4, 5, 6])

# 加法
result = s1 + s2
print(result)

1.2 减法

# 减法
result = s1 - s2
print(result)

1.3 乘法

# 乘法
result = s1 * s2
print(result)

1.4 除法

# 除法
result = s1 / s2
print(result)

2.广播（Broadcasting）

Pandas支持广播机制，可以对不同形状的数组进行运算。例如，将一个标量值加到整个Series或DataFrame上。

# 广播
result = s1 + 10
print(result)

3.统计运算

Pandas提供了多种统计运算方法，可以直接在Series或DataFrame上调用。

3.1 求和

# 创建DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6]
})

# 求和
sum_result = df.sum()  # 默认按列求和
print(sum_result)

3.2 均值

# 计算均值
mean_result = df.mean()
print(mean_result)

3.3 中位数

# 计算中位数
median_result = df.median()
print(median_result)

3.4 标准差

# 计算标准差
std_result = df.std()
print(std_result)

4.应用自定义函数

可以使用 .apply() 方法对Series或DataFrame的每一列或每一行应用自定义函数。

# 自定义函数
def square(x):
    return x ** 2

# 应用自定义函数
squared_result = df.apply(square)
print(squared_result)

5. 数据对齐

Pandas在进行运算时会自动对齐数据，确保相同索引的元素进行运算。

s3 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
s4 = pd.Series([4, 5], index=['b', 'c'])

# 数据对齐
result = s3 + s4
print(result)  # 只对齐到相同的索引

6.NaN处理

在进行数值运算时，Pandas会自动处理缺失值（NaN）。可以使用 .fillna() 方法来填充缺失值。

s5 = pd.Series([1, 2, None, 4])

# 填充缺失值
s5_filled = s5.fillna(0)

# 运算
result = s5_filled + 10
print(result)

7.其他常用运算

7.1 绝对值：`abs()`

s6 = pd.Series([-1, -2, 3])
abs_result = s6.abs()
print(abs_result)

7.2 平方根：`sqrt()`

import numpy as np

sqrt_result = np.sqrt(s6[s6 > 0])  # 仅对正值取平方根
print(sqrt_result)

7.3 幂运算：`pow()`

pow_result = s1.pow(2)  # 每个元素平方
print(pow_result)

（五）merge操作

merge 操作是将两个 DataFrame 合并在一起，依据某些列的值来匹配数据。它可以处理复杂的数据关系，让我们能够轻松地进行数据整合。

1.基本语法

import pandas as pd

merged_df = pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, 
                      left_index=False, right_index=False, sort=False, 
                      suffixes=('_x', '_y'), copy=True, 
                      indicator=False, validate=None)

2.参数说明

left: 要合并的左侧 DataFrame。
right: 要合并的右侧 DataFrame。
how: 指定合并的方式，常用的选项有：

'inner': 交集，返回两个 DataFrame 中都有的行（默认值）。
'outer': 并集，返回两个 DataFrame 中所有的行。
'left': 左连接，返回左侧 DataFrame 中的所有行。
'right': 右连接，返回右侧 DataFrame 中的所有行。

on： 指定用于合并的列名，必须在两个 DataFrame 中都存在。
left_on：指定左侧 DataFrame 中用于合并的列名。
right_on：指定右侧 DataFrame 中用于合并的列名。
left_index：如果为 True，使用左侧 DataFrame 的索引作为合并的键。
right_index：如果为 True，使用右侧 DataFrame 的索引作为合并的键。
sort：如果为 True，则合并后的结果会按合并的键排序。
suffixes：用于重命名重复列的后缀，默认是 ('_x', '_y')。
copy：如果为 True，则返回的 DataFrame 会复制数据。
indicator：如果为 True，则会添加一列 _merge，显示每行的来源（左、右或两者都有）。
validate：用于验证合并的类型，支持的值有 'one_to_one', 'one_to_many', 'many_to_one', 'many_to_many'。

3.完整示例

import pandas as pd

# 创建两个示例 DataFrame
df1 = pd.DataFrame({
    'key': ['A', 'B', 'C'],
    'value1': [1, 2, 3]
})

df2 = pd.DataFrame({
    'key': ['B', 'C', 'D'],
    'value2': [4, 5, 6]
})

# 使用 merge 合并
merged_inner = pd.merge(df1, df2, on='key', how='inner')  # 交集
merged_outer = pd.merge(df1, df2, on='key', how='outer')  # 并集
merged_left = pd.merge(df1, df2, on='key', how='left')    # 左连接
merged_right = pd.merge(df1, df2, on='key', how='right')  # 右连接

print("Inner Merge:\n", merged_inner)
print("Outer Merge:\n", merged_outer)
print("Left Merge:\n", merged_left)
print("Right Merge:\n", merged_right)

4.输出结果

Inner Merge:
   key  value1  value2
0   B       2       4
1   C       3       5

Outer Merge:
   key  value1  value2
0   A     1.0     NaN
1   B     2.0     4.0
2   C     3.0     5.0
3   D     NaN     6.0

Left Merge:
   key  value1  value2
0   A       1     NaN
1   B       2     4.0
2   C       3     5.0

Right Merge:
   key  value1  value2
0   B     2.0     4
1   C     3.0     5
2   D     NaN     6

（六）显示设置

通过调整Pandas的显示设置，可以更方便地查看和分析。

1.查看当前设置

Pandas提供了pd.get_option()函数，可以用来查看当前的显示设置。以下是一些常用的设置项：

# 查看最大显示行数
print(pd.get_option('display.max_rows'))

# 查看最大显示列数
print(pd.get_option('display.max_columns'))

# 查看每列的最大宽度
print(pd.get_option('display.max_colwidth'))

# 查看浮点数显示精度
print(pd.get_option('display.precision'))

2.修改显示设置

使用pd.set_option()函数可以轻松更改显示设置。以下是一些常见的设置选项：

2.1 设置最大显示行数

通过设置最大显示行数，可以控制在输出中显示的行数：

pd.set_option('display.max_rows', 10)  # 设置最大显示行数为10

2.2 设置最大显示列数

如果数据集包含许多列，可以通过设置最大显示列数来限制输出的列数：

pd.set_option('display.max_columns', 5)  # 设置最大显示列数为5

2.3 设置列宽

可以通过设置列宽来控制每列的最大显示宽度，这在列内容较长时尤为重要：

pd.set_option('display.max_colwidth', 50)  # 设置每列的最大宽度为50个字符

2.4 设置浮点数显示精度

在处理浮点数时，可能希望控制显示的精度，以避免过多的小数位影响可读性：

pd.set_option('display.precision', 3)  # 设置浮点数显示精度为3位

2.5 设置显示的宽度

通过设置显示的宽度来控制整个输出的宽度：

pd.set_option('display.width', 100)  # 设置显示的宽度为100个字符

2.6 设置是否显示完整的输出

如果列数过多，希望控制输出的方式，可以通过设置expand_frame_repr来实现：

pd.set_option('display.expand_frame_repr', False)  # 设置为False时，输出会换行

2.7 显示DataFrame的维度

使用show_dimensions选项，可以选择在输出中显示DataFrame的维度：

pd.set_option('display.show_dimensions', True)  # 显示DataFrame的维度

3. 重置设置

如果想要重置某个设置为默认值，可以使用pd.reset_option()函数。

pd.reset_option('display.max_rows')  # 重置最大显示行数为默认值

4. 查看所有可设置选项

要查看所有可设置的选项及其描述，可以使用以下命令：

pd.describe_option()  # 查看所有选项及其描述

5. 完整示例

import pandas as pd

# 创建一个示例DataFrame
data = {
    'A': range(1, 21),
    'B': range(21, 41),
    'C': range(41, 61),
}
df = pd.DataFrame(data)

# 查看默认设置
print("默认最大行数:", pd.get_option('display.max_rows'))

# 设置显示选项
pd.set_option('display.max_rows', 10)
pd.set_option('display.max_columns', 3)
pd.set_option('display.max_colwidth', 10)

# 显示DataFrame
print(df)

# 重置设置
pd.reset_option('display.max_rows')

（七）数据透视表

在数据分析的过程中，数据透视表（Pivot Table）是一种强大的工具，它可以帮助我们快速汇总和分析数据。Pandas库中的pivot_table函数可以轻松创建数据透视表，使得我们能够从大量数据中提取出有价值的信息。

1. 创建示例数据集

为了演示数据透视表的用法，我们首先创建一个示例DataFrame：

data = {
    '日期': ['2023-01-01', '2023-01-01', '2023-01-02', '2023-01-02', '2023-01-03'],
    '产品': ['A', 'B', 'A', 'B', 'A'],
    '销售额': [100, 150, 200, 250, 300],
    '数量': [1, 2, 2, 3, 4]
}

df = pd.DataFrame(data)
print(df)

输出结果：

          日期 产品  销售额  数量
0  2023-01-01  A   100   1
1  2023-01-01  B   150   2
2  2023-01-02  A   200   2
3  2023-01-02  B   250   3
4  2023-01-03  A   300   4

2. 创建数据透视表

使用pd.pivot_table()函数可以创建数据透视表。

pd.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True)

参数说明：

data：输入的DataFrame。
values：需要进行汇总的列。
index：用于分组的行索引。
columns：用于分组的列索引。
aggfunc：汇总函数，默认为mean，可以是sum、count、min、max等。
fill_value：用于填充缺失值的值。
margins：布尔值，是否添加行和列的总和，默认为False。
dropna：布尔值，是否丢弃缺失值，默认为True。

2. 1 基本示例

我们先创建一个简单的数据透视表，计算每个产品的销售额总和：

pivot_table = pd.pivot_table(df, values='销售额', index='产品', aggfunc='sum')
print(pivot_table)

输出结果：

2.2 多重索引

我们可以使用多个列作为索引，例如同时按日期和产品进行分组，计算销售额的总和：

pivot_table_multi = pd.pivot_table(df, values='销售额', index=['日期', '产品'], aggfunc='sum')
print(pivot_table_multi)

输出结果：

               
日期       产品  销售额   
2023-01-01  A   100
            B   150
2023-01-02  A   200
            B   250
2023-01-03  A   300

2.3 添加列索引

除了行索引外，我们还可以添加列索引。例如，我们可以将产品作为列索引，日期作为行索引，计算销售额的总和：

pivot_table_columns = pd.pivot_table(df, values='销售额', index='日期', columns='产品', aggfunc='sum')
print(pivot_table_columns)

输出结果：

产品         A    B
日期                 
2023-01-01  100  150
2023-01-02  200  250
2023-01-03  300  NaN

2.4 使用多个汇总函数

我们还可以同时使用多个汇总函数来计算不同的统计信息。通过传递一个函数列表给aggfunc参数：

pivot_table_aggfunc = pd.pivot_table(df, values='销售额', index='产品', aggfunc=[sum, 'mean'])
print(pivot_table_aggfunc)

输出结果：


产品   sum   mean           
A      600  200.0
B      400  200.0

2.5 填充缺失值

在计算过程中可能会出现缺失值，可以使用fill_value参数来填充缺失值：

pivot_table_fill = pd.pivot_table(df, values='销售额', index='日期', columns='产品', aggfunc='sum', fill_value=0)
print(pivot_table_fill)

输出结果：

产品           A    B
日期                 
2023-01-01  100  150
2023-01-02  200  250
2023-01-03  300    0

2.6 添加边际和总和

通过设置margins=True可以在数据透视表中添加行和列的总和：

pivot_table_margins = pd.pivot_table(df, values='销售额', index='日期', columns='产品', aggfunc='sum', margins=True)
print(pivot_table_margins)

输出结果：

产品           A    B    All
日期                         
2023-01-01  100  150  250.0
2023-01-02  200  250  450.0
2023-01-03  300  NaN  300.0
All        600  400  1000.0

（八）时间操作

在数据分析中，时间序列数据的处理是一个非常重要的环节。Pandas库提供了强大的时间操作功能，使得我们能够轻松处理和分析时间序列数据。

1. 创建时间序列数据

我们可以通过pd.date_range()函数创建一个时间序列，并将其用作DataFrame的索引：

date_range = pd.date_range(start='2023-01-01', periods=10, freq='D')
data = {
    '销售额': [100, 150, 200, 250, 300, 350, 400, 450, 500, 550]
}
df = pd.DataFrame(data, index=date_range)
print(df)

输出结果：

            销售额
2023-01-01   100
2023-01-02   150
2023-01-03   200
2023-01-04   250
2023-01-05   300
2023-01-06   350
2023-01-07   400
2023-01-08   450
2023-01-09   500
2023-01-10   550

2. 时间序列的基本操作

2.1 时间索引

我们可以通过日期索引直接访问数据。例如，获取2023年1月3日的销售额：

print(df.loc['2023-01-03'])

输出结果：

销售额    200
Name: 2023-01-03 00:00:00, dtype: int64

2.2 切片操作

Pandas支持使用切片操作来获取时间范围内的数据。例如，获取2023年1月03日至2023年1月05日的数据：

print(df['2023-01-03':'2023-01-05'])

输出结果：

            销售额
2023-01-03   200
2023-01-04   250
2023-01-05   300

2.3 重采样

重采样是对时间序列数据进行汇总或降采样的过程。我们可以使用resample()方法进行重采样。例如，将数据按周重采样，计算每周的总销售额：

weekly_sales = df.resample('W').sum()
print(weekly_sales)

输出结果：

            销售额
2023-01-01   100
2023-01-08  1550
2023-01-15   550

2.4 时间移动

我们可以使用shift()方法来移动时间序列数据。例如，计算销售额的滞后值（即前一天的销售额）：

df['滞后销售额'] = df['销售额'].shift(1)
print(df)

输出结果：

            销售额  滞后销售额
2023-01-01   100      NaN
2023-01-02   150    100.0
2023-01-03   200    150.0
2023-01-04   250    200.0
2023-01-05   300    250.0
2023-01-06   350    300.0
2023-01-07   400    350.0
2023-01-08   450    400.0
2023-01-09   500    450.0
2023-01-10   550    500.0

3. 时间戳和时间差

3.1 创建时间戳

我们可以使用pd.Timestamp()创建时间戳对象：

timestamp = pd.Timestamp('2023-01-01')
print(timestamp)

输出结果：

2023-01-01 00:00:00

3.2 计算时间差

我们可以计算两个时间戳之间的差值：

start = pd.Timestamp('2023-01-01')
end = pd.Timestamp('2023-01-10')
time_diff = end - start
print(time_diff)

输出结果：

9 days 00:00:00

4. 处理缺失值

在时间序列数据中，缺失值是常见的现象。我们可以使用fillna()方法来填充缺失值。例如，使用前一个有效值填充：

df['滞后销售额'].fillna(method='ffill', inplace=True)
print(df)

输出结果：

            销售额  滞后销售额
2023-01-01   100      100.0
2023-01-02   150      100.0
2023-01-03   200      150.0
2023-01-04   250      200.0
2023-01-05   300      250.0
2023-01-06   350      300.0
2023-01-07   400      350.0
2023-01-08   450      400.0
2023-01-09   500      450.0
2023-01-10   550      500.0