python学习8-数据获取与整理4

拾荒李

于 2024-08-25 22:12:58 发布

阅读量998

点赞数 19

文章标签： python 学习 pandas

本文链接：https://blog.csdn.net/woyebuzhidao321/article/details/141534974

版权

pandas迭代

在 Pandas 中，通常情况下你不需要迭代（遍历）DataFrame 或 Series，因为很多操作都是矢量化的，可以直接应用于整个数据集。然而，有时候你可能需要遍历数据帧（DataFrame）或者序列（Series）的行或列来进行某些操作，这时候就需要用到迭代。
这里有几种在 Pandas 中进行迭代的方法：

迭代Series
迭代Series其实和迭代Python中的任何序列类型没有太大区别，可以直接使用for循环：


import pandas as pd

# 创建一个Series
s = pd.Series([1, 2, 3, 4, 5])

# 迭代Series
for value in s:
    print(value)

2. 迭代DataFrame的行

对于DataFrame，可以使用 iterrows() 方法来迭代行：


# 创建一个DataFrame
df = pd.DataFrame({
    'Column1': [1, 2, 3],
    'Column2': ['a', 'b', 'c']
})

# 迭代DataFrame的行
for index, row in df.iterrows():
    print(f'Index: {index}, Column1: {row["Column1"]}, Column2: {row["Column2"]}')

iterrows() 返回每行的索引和一个包含行数据的Series对象。

3. 迭代DataFrame的列

可以通过直接迭代DataFrame来获取列名，再用列名来访问列数据：


# 迭代DataFrame的列
for col_name in df:
    print(f'Column Name: {col_name}')
    print(df[col_name])

使用 itertuples()
itertuples() 方法会返回一个命名元组（namedtuple）的迭代器，比 iterrows() 快：


# 使用 itertuples 迭代DataFrame的行
for row in df.itertuples():
    print(f'Index: {row.Index}, Column1: {row.Column1}, Column2: {row.Column2}')

在性能敏感的场合，itertuples() 是一种更快的迭代方法，因为它不会在每次迭代时创建一个新的Series对象。
5. 使用 apply()
虽然 apply() 不是用来迭代的，但它可以将一个函数应用于DataFrame的每一行或列。这经常被用作一个遍历DataFrame的替代方法。


# 使用 apply 函数对DataFrame的每一行应用一个函数
df.apply(lambda row: print(f'Column1: {row["Column1"]}, Column2: {row["Column2"]}'), axis=1)

Pandas字符串与文本数据

Pandas 提供了一系列字符串操作，使得在 DataFrame 或 Series 中处理文本数据变得非常方便。大多数这些字符串方法都是在内部借鉴 Python 标准库中的字符串方法，可以通过 str 属性来访问这些方法。
以下是一些常用的 Pandas 字符串处理方法：

基础字符串操作

lower(): 将字符串转换为小写。
upper(): 将字符串转换为大写。
len(): 计算字符串的长度。
startswith(): 检查字符串是否以特定的前缀开始。
endswith(): 检查字符串是否以特定的后缀结束。

搜索和替换

contains(): 检查每个元素是否包含特定模式/字符。
replace(): 替换指定的值。
find(): 返回子字符串所在位置的最小索引（起始于 0）。
findall(): 返回一个列表，包含字符串中所有子字符串的匹配项。

分割和拼接

split(): 根据分隔符分割字符串。
join(): 用特定的字符或字符串将 Series 或 DataFrame 中的每个元素连接起来。

提取

extract(): 对字符串列使用正则表达式并提取一或多个组作为新的 DataFrame。
slice(): 对字符串进行切片。

判断和决策

isnumeric(): 检查每个元素是否只包含数字。
isalpha(): 检查每个元素是否只包含字母。
isdigit(): 检查每个元素是否只包含数字。
下面是一些操作的示例：


import pandas as pd

# 创建一个简单的DataFrame
data = {'Name': ['JOHN DOE', 'Jane Smith', 'ALICE JONES'],
        'Location' : ['New York', 'Paris', 'London'],
        'Age' : [28, 34, 24]}
df = pd.DataFrame(data)

# 将 Name 列转换为小写
df['Name'] = df['Name'].str.lower()

# 检查 Location 是否包含 'o'
df['Contains O'] = df['Location'].str.contains('o')

# 分割 Name 列，获取姓氏
df['Surname'] = df['Name'].str.split().str.get(1)

# 使用正则表达式提取 Name 列中的所有大写字母
df['Uppercase Letters'] = df['Name'].str.extract('([A-Z]+)')

print(df)

Pandas聚合函数

当然，我很高兴为您详细讲解Pandas中的聚合相关方法。Pandas是一个广泛使用的Python库，用于数据分析和数据处理。聚合是数据处理中的一个常见操作，用于对数据进行统计和分析。Pandas提供了多种聚合方法，可以方便地应用于数据集。

在Pandas中，聚合操作主要通过groupby()方法和一些聚合函数来实现。groupby()方法用于根据一个或多个列对数据进行分组，然后可以对每个组应用聚合函数。

下面是一些常用的聚合函数：

sum()：计算分组中数值列的总和。
mean()：计算分组中数值列的平均值。
median()：计算分组中数值列的中位数。
max()：计算分组中数值列的最大值。
min()：计算分组中数值列的最小值。
count()：计算分组中的非空值的数量。
std()：计算分组中数值列的标准差。
var()：计算分组中数值列的方差。

下面是一个示例，说明如何使用groupby()方法和聚合函数进行数据聚合操作：

import pandas as pd

# 创建一个示例数据集
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob', 'Charlie'],
    'Category': ['A', 'A', 'B', 'A', 'B', 'B'],
    'Value': [10, 20, 30, 40, 50, 60]
}
df = pd.DataFrame(data)

# 使用groupby()方法和sum()函数对数据进行聚合
grouped = df.groupby('Category')['Value'].sum()
print(grouped)

输出：

Category
A    70
B   140
Name: Value, dtype: int64

在上面的示例中，我们首先创建了一个数据集df，然后使用groupby(‘Category’)将数据按照"Category"列进行分组，然后使用sum()函数对"Value"列进行求和操作。最后打印出了每个类别对应的值之和。

除了使用单一的聚合函数外，还可以使用agg()方法同时应用多个聚合函数。例如：

# 使用agg()方法同时应用多个聚合函数
aggregation_functions = {'Value': ['sum', 'mean', 'min', 'max']}
grouped = df.groupby('Category').agg(aggregation_functions)
print(grouped)

应用Pandas的级联功能

Pandas级联（Cascading）详细讲解

级联操作是在数据处理中常用的一种技术，它允许我们按顺序应用多个操作，并保留每个步骤的结果。在Pandas中，级联提供了一种灵活且高效的方式来处理和转换数据。本文将详细讲解Pandas中级联的相关知识点，包括级联的概念、用法以及示例。

级联的概念

级联操作是指将一系列的操作按顺序应用到数据集上，并且每个操作的结果都会被保留下来，作为下一步操作的输入。这种操作方式可以帮助我们在数据处理过程中保留中间结果，并进行进一步的分析和转换。级联操作通常涉及对数据集进行筛选、转换、聚合等一系列操作。

级联的用法

在Pandas中，级联操作可以通过使用管道操作符（|）或者pipe()方法来实现。这两种方式都可以将多个操作按顺序连接起来，并将前一步的结果作为下一步的输入。

2.1 使用管道操作符（|）

Pandas中的管道操作符（|）用于将多个操作级联起来。它的用法非常简单，只需将每个操作使用管道操作符连接即可。

import pandas as pd

# 创建一个数据集
data = {'A': [1, 2, 3], 'B': [4, 5, 6]}
df = pd.DataFrame(data)

# 使用管道操作符进行级联操作
result = (df
          | df.add(1)  # 第一步操作：给每列的值加1
          | df.mul(2)  # 第二步操作：将每列的值乘以2
         )

在上述示例中，首先创建了一个数据集df，然后使用管道操作符将两个操作add(1)和mul(2)级联起来，并将结果赋值给result变量。

2.2 使用**pipe()**方法

除了管道操作符，Pandas还提供了pipe()方法来实现级联操作。pipe()方法接受一个函数作为参数，并在数据集上应用该函数。这个函数可以返回一个修改后的数据集，作为下一步操作的输入。

# 定义一个函数，用于给每列的值加1
def add_one(df):
    return df.add(1)

# 定义另一个函数，用于将每列的值乘以2
def multiply_by_two(df):
    return df.mul(2)

# 使用pipe()方法进行级联操作
result = df.pipe(add_one).pipe(multiply_by_two)

在上述示例中，我们定义了两个函数add_one()和multiply_by_two()，然后使用pipe()方法将它们级联起来，并将结果赋值给result变量。

级联的示例

级联操作在数据处理中具有广泛的应用。例如，我们可以使用级联操作来对数据进行清洗、筛选、特征工程等一系列操作，以满足特定的分析需求。下面是一个简单的示例，演示了如何使用级联操作对数据进行处理：

# 创建一个数据集
data = {'A': [1, 2, None, 4], 'B': [5, None, 7, 8]}
df = pd.DataFrame(data)

# 定义一个函数，用于填充缺失值
def fill_missing_values(df):
    return df.fillna(0)

# 定义另一个函数，用于计算每列的总和
def calculate_sum(df):
    return df.sum()

# 使用级联操作对数据进行处理
result = df.pipe(fill_missing_values).pipe(calculate_sum)

在上述示例中，首先创建了一个包含缺失值的数据集df，然后使用级联操作先对数据进行缺失值填充，再计算每列的总和，并将结果赋值给result变量。这样就实现了一个简单的数据处理流程。

Pandas如何处理缺失数据

在数据处理和分析中，缺失数据是一个经常遇到的问题。Pandas作为Python中的数据处理利器，提供了多种方法帮助我们有效处理缺失数据。本文将详细讲解如何使用Pandas处理缺失数据。

识别缺失数据

在Pandas中，缺失数据通常被表示为NaN（Not a Number）。首先，我们需要识别数据中的缺失值。可以使用isnull()和any()函数来查找数据集中的缺失值：

import pandas as pd

# 创建一个包含缺失值的数据集
data = {'A': [1, 2, pd.NA], 'B': [4, pd.NA, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)

# 查找数据集中的缺失值
print(df.isnull())

删除缺失数据

最简单的处理方法是删除含有缺失值的行或列。但这种方法可能会导致数据失真，所以通常只在缺失数据比例较小的情况下使用。可以使用dropna()函数来删除包含缺失值的行或列：

# 删除包含缺失值的行
df_dropped = df.dropna()

# 删除包含缺失值的列
df_dropped_columns = df.dropna(axis=1)

填充缺失数据

更常用的方法是填充缺失数据，以保持数据的完整性。Pandas提供了多种填充方法：

使用固定值填充：

# 使用0填充所有缺失值
df_filled = df.fillna(0)

使用列均值或中位数填充：

# 使用列均值填充缺失值
df_filled_mean = df.fillna(df.mean())

# 使用列中位数填充缺失值
df_filled_median = df.fillna(df.median())

使用前向或后向填充（即使用前一个或后一个有效数据进行填充）：

# 使用前向填充
df_filled_forward = df.fillna(method='ffill')

# 使用后向填充
df_filled_backward = df.fillna(method='bfill')

使用插值方法填充：

# 使用线性插值填充
df_filled_interpolation = df.interpolate()

Pandas合并连接

Pandas合并与连接详解

在数据处理中，经常需要将不同的数据集进行合并或连接，以满足分析需求。Pandas作为Python的重要数据处理库，提供了丰富的合并与连接功能。本文将详细讲解Pandas中合并连接的相关知识点。

合并数据集（Merge）

合并操作可以将两个数据集按照指定的列进行匹配并组合在一起。Pandas中的merge()函数用于执行合并操作。

import pandas as pd

# 创建两个数据集
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                    'B': ['B0', 'B1', 'B2'],
                    'key': ['K0', 'K1', 'K2']})

df2 = pd.DataFrame({'C': ['C0', 'C1', 'C2'],
                    'D': ['D0', 'D1', 'D2']},
                   index=['K0', 'K1', 'K2'])

# 通过key列合并数据集
merged_df = pd.merge(df1, df2, left_on='key', right_index=True)

在上述示例中，merge()函数通过left_on和right_index参数指定了合并的列。left_on表示左数据集的列名，right_index表示右数据集的索引。合并后，两个数据集将按照指定的列进行匹配，并组合成一个新的数据集。

连接数据集（Concat）

连接操作可以将多个数据集沿着行或列方向连接在一起。Pandas中的concat()函数用于执行连接操作。

# 创建两个数据集
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                    'B': ['B0', 'B1', 'B2']})

df2 = pd.DataFrame({'A': ['A3', 'A4', 'A5'],
                    'B': ['B3', 'B4', 'B5']})

# 沿着行方向连接数据集
concatenated_df = pd.concat([df1, df2])

在上述示例中，concat()函数将两个数据集沿着行方向连接在一起，形成一个新的数据集。通过添加axis=1参数，也可以沿着列方向进行连接。

Pandas排序

Pandas排序详细讲解

排序是数据处理中常见的操作之一，它可以帮助我们按照特定的列或规则对数据进行重新排列。Pandas作为Python中强大的数据处理库，提供了丰富的排序功能。本文将详细讲解Pandas中排序的相关知识点，包括单列排序、多列排序以及自定义排序等。

单列排序

单列排序是指按照单一列的值对数据进行排序。在Pandas中，可以使用sort_values()方法来实现单列排序。该方法默认按照升序进行排序。

import pandas as pd

# 创建一个数据集
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 22, 28, 30]}
df = pd.DataFrame(data)

# 按照Age列进行升序排序
sorted_df = df.sort_values('Age')

在上述示例中，sort_values()方法接受一个参数，即要排序的列名。通过指定’Age’列，我们可以按照年龄进行升序排序。

多列排序

多列排序是指按照多个列的值对数据进行排序。在Pandas中，可以通过传递一个列名列表给sort_values()方法来实现多列排序。

# 按照Age和Name列进行排序，先按Age升序排列，再按Name降序排列
sorted_df = df.sort_values(['Age', 'Name'], ascending=[True, False])

自定义排序

除了默认的升序和降序排序外，Pandas还允许我们根据自定义的规则进行排序。可以使用key参数来指定一个自定义的排序函数。

# 自定义排序函数，按照年龄的奇偶性进行排序
def custom_sort(value):
    if value % 2 == 0:
        return 'even'
    else:
        return 'odd'

# 按照自定义规则对Age列进行排序
sorted_df = df.sort_values('Age', key=custom_sort)

在上述示例中，我们定义了一个自定义的排序函数custom_sort()，该函数根据年龄的奇偶性进行排序。然后，将这个函数作为key参数传递给sort_values()方法，实现了按照自定义规则对年龄进行排序。

Pandas时间序列

Pandas时间与日期详细讲解

在数据处理中，时间和日期是经常遇到的数据类型。Pandas作为Python中强大的数据处理库，提供了许多功能和工具来处理时间和日期数据。本文将详细讲解Pandas中与时间和日期相关的知识点，包括时间戳的处理、日期的格式化、时间序列的生成与分析等。

时间戳的处理

时间戳表示从特定起点开始的时间经过的秒数。在Pandas中，可以使用pd.Timestamp类来表示时间戳。可以通过传递字符串、日期或时间戳整数来创建Timestamp对象。

import pandas as pd

# 通过字符串创建Timestamp对象
timestamp1 = pd.Timestamp('2023-07-30')

# 通过日期创建Timestamp对象
import datetime
timestamp2 = pd.Timestamp(datetime.date(2023, 7, 30))

# 通过时间戳整数创建Timestamp对象
timestamp3 = pd.Timestamp(1679808000, unit='s')

andas还提供了将时间戳转换为特定时间单位的方法，如to_period()方法可以将时间戳转换为周期表示。

日期的格式化

在Pandas中，可以使用dt访问器对日期进行格式化。dt访问器提供了许多属性，如year、month、day等，可以直接获取日期的年、月、日等部分。

# 创建一个日期列
data = {'Date': ['2023-07-30', '2023-08-01', '2023-09-15']}
df = pd.DataFrame(data)

# 将日期列转换为日期类型
df['Date'] = pd.to_datetime(df['Date'])

# 提取日期的年、月、日部分
df['Year'] = df['Date'].dt.year
df['Month'] = df['Date'].dt.month
df['Day'] = df['Date'].dt.day

此外，还可以使用strftime()方法对日期进行格式化，将其转换为指定格式的字符串。

时间序列的生成与分析

时间序列是指按照时间顺序排列的数据序列。Pandas提供了生成和分析时间序列的功能。通过pd.date_range()方法可以生成一个时间序列。该方法接受起始日期、结束日期和频率等参数，生成一个包含指定时间范围的日期索引。

# 生成一个从2023年1月1日到2023年12月31日的时间序列，频率为每天
date_range = pd.date_range(start='2023-01-01', end='2023-12-31', freq='D')

有了时间序列后，我们可以使用Pandas的时序功能进行分析，如重采样、滑动窗口计算等。例如，可以使用resample()方法对时间序列进行重采样，将原始数据的频率转换为其他频率。可以使用rolling()方法创建滑动窗口，计算滑动窗口内的统计指标。

Pandas应用时间序列DataFrame的使用详解

时间序列数据是一种按照时间顺序排列的数据，它在各个领域都有广泛的应用，如金融、经济、气象学等。Pandas作为Python中强大的数据处理库，提供了时间序列DataFrame来处理和分析时间序列数据。本文将详细讲解Pandas应用时间序列DataFrame的使用方法和相关功能。

创建时间序列DataFrame

首先，我们需要创建时间序列DataFrame。Pandas中的DataFrame是一种二维表格型数据结构，可以用于存储各种类型的数据，包括时间序列数据。创建时间序列DataFrame的关键是指定日期列作为索引。

import pandas as pd

# 创建包含时间序列数据的DataFrame
data = {'Date': ['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04'],
        'Price': [100, 105, 102, 108]}
df = pd.DataFrame(data)

# 将日期列转换为日期类型，并设置为索引
df['Date'] = pd.to_datetime(df['Date'])
df.set_index('Date', inplace=True)

在上述示例中，我们创建了一个包含日期和价格的DataFrame，并将日期列转换为日期类型，然后将其设置为索引，从而创建了一个时间序列DataFrame。

时序索引操作

时间序列DataFrame的索引是日期，因此可以通过时序索引操作对数据进行筛选、切片和查询。例如，可以使用日期范围选择特定时间段的数据。

# 选择2023年1月1日到2023年1月3日之间的数据
subset = df['2023-01-01':'2023-01-03']

时序重采样

时序重采样是指将时间序列数据从一个频率转换为另一个频率的过程。Pandas提供了resample()方法来实现时序重采样。可以根据需要选择不同的重采样频率，如每天、每月、每年等。

# 将数据重采样为按周计算平均值
weekly_avg = df.resample('W').mean()

在上述示例中，我们使用了resample()方法将数据从重采样为按周计算平均值。可以根据具体需求选择不同的重采样频率和聚合函数。

滑动窗口操作

滑动窗口操作是指在时间序列上创建一个固定大小的窗口，并计算窗口内的统计指标。这种操作常用于分析时间序列数据的局部特征。Pandas提供了rolling()方法来创建滑动窗口。

# 创建一个大小为3的滑动窗口，并计算每个窗口内的平均值
rolling_avg = df['Price'].rolling(window=3).mean()

时序差分

时序差分是指计算时间序列数据中相邻观测值之间的差异。这种操作常用于分析时间序列数据的波动性和趋势性。Pandas提供了diff()方法来进行时序差分。

# 计算时间序列的一阶差分
diff = df['Price'].diff()

Pandas时间差计算详解

在数据处理和分析过程中，计算时间差是一个常见的需求。Pandas作为Python中强大的数据处理库，提供了便捷的方式来计算时间差。本文将详细讲解Pandas中时间差计算的相关知识。

时间差计算的应用场景

时间差计算在很多领域都有应用，例如：

金融领域：计算两个时间点之间的交易时长、持仓时间等。
物流管理：计算货物从起点到终点的运输时间。
人力资源管理：计算员工的入职时长、工作时长等。

使用Pandas计算时间差

在Pandas中，可以使用datetime数据类型来表示日期和时间，并且Pandas提供了timedelta数据类型来表示时间差。

下面是一个使用Pandas计算时间差的简单示例：

import pandas as pd

# 创建两个时间点
time1 = pd.to_datetime('2023-07-30 09:30:00')
time2 = pd.to_datetime('2023-07-31 14:45:00')

# 计算时间差
time_difference = time2 - time1

在上述示例中，我们首先使用pd.to_datetime()函数将日期字符串转换为datetime类型的时间点。然后，通过直接相减，可以得到两个时间点之间的时间差，结果将存储在timedelta类型的变量中。

时间差的单位转换

timedelta类型的时间差可以以不同的单位进行表示，例如天数、小时数、分钟数等。可以通过访问timedelta对象的属性来获取时间差的各个单位。

以下是获取时间差不同单位的示例：

# 获取时间差的天数
days_difference = time_difference.days

# 获取时间差的小时数
hours_difference = time_difference.seconds // 3600

# 获取时间差的分钟数
minutes_difference = time_difference.seconds // 60

此外，还可以使用total_seconds()方法来获取时间差的总秒数，这样可以方便地进行单位转换。例如，将时间差转换为小时数，可以使用time_difference.total_seconds() / 3600。

处理时间序列数据的时间差

当处理时间序列数据时，可能需要计算相邻时间点之间的时间差。可以使用Pandas的diff()方法来计算时间序列的时间差。例如，对于一个包含日期和对应值的DataFrame，可以使用以下代码计算相邻日期之间的时间差：

import pandas as pd

# 创建时间序列DataFrame
data = {'Date': ['2023-07-30', '2023-07-31', '2023-08-01'],
        'Value': [1, 3, 6]}
df = pd.DataFrame(data)
df['Date'] = pd.to_datetime(df['Date'])
df.set_index('Date', inplace=True)

# 计算相邻时间点的时间差
time_diff = df.index.to_series().diff()

上述代码首先创建了一个包含日期的DataFrame，并将日期列设置为索引。然后，通过diff()方法计算相邻时间点的时间差，结果将存储在一个Series对象中。

拾荒李

关注

19
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
python学习8-数据获取与整理4

本文将详细讲解Pandas中与时间和日期相关的知识点，包括时间戳的处理、日期的格式化、时间序列的生成与分析等。级联操作是指将一系列的操作按顺序应用到数据集上，并且每个操作的结果都会被保留下来，作为下一步操作的输入。在上面的示例中，我们首先创建了一个数据集df，然后使用groupby(‘Category’)将数据按照"Category"列进行分组，然后使用sum()函数对"Value"列进行求和操作。然后，通过直接相减，可以得到两个时间点之间的时间差，结果将存储在timedelta类型的变量中。
复制链接

扫一扫