Pandas 中的日期时间处理：深入理解与实战（五）

小高要坚强

于 2024-08-27 22:43:32 发布

阅读量466

点赞数 10

分类专栏： python 文章标签： pandas 开发语言 python 数据分析时间

本文链接：https://blog.csdn.net/weixin_47570444/article/details/141573902

版权

python 专栏收录该内容

16 篇文章 0 订阅

订阅专栏

在数据分析和处理的过程中，日期和时间数据的处理是一个常见且重要的任务。Pandas 库提供了丰富的时间数据处理功能，帮助我们高效地处理、转换和分析时间序列数据。在本文中，我们将详细介绍 Pandas 中关于日期时间处理的核心功能，并通过代码示例展示它们的实际应用。

一、日期时间数据的基础概念

在 Pandas 中，主要有两种用于处理日期时间数据的对象类型：

Timestamp：表示一个具体的时间点，精确到纳秒级别，类似于 Python 中的 datetime 对象。
Period：表示一段时间，而不是具体的时点。例如，一个月或一季度。

1.Timestamp 对象

Timestamp 对象通常用于表示精确到秒、微秒甚至纳秒的具体时间点。我们可以使用 pd.Timestamp() 函数创建 Timestamp 对象，也可以通过字符串形式创建。

import pandas as pd
from datetime import datetime

# 使用 datetime 对象创建 Timestamp
timestamp1 = pd.Timestamp(datetime(2032, 1, 1))
timestamp2 = pd.Timestamp(datetime(2032, 1, 2, 3, 4, 5))

# 直接传入年、月、日参数创建 Timestamp
timestamp3 = pd.Timestamp(2032, 1, 2)

# 通过字符串形式创建 Timestamp
timestamp4 = pd.Timestamp('2032-01-02 03:04:05')

print(timestamp1, timestamp2, timestamp3, timestamp4)

2.Period 对象

Period 对象表示一段时间，例如一月、一季度等。与 Timestamp 不同，Period 表示的是一段连续的时间。

import pandas as pd

# 创建一个表示某月的 Period 对象
period1 = pd.Period('2032-01')

# 创建一个精确到天的 Period 对象
period2 = pd.Period('2032-01', freq='D')

# 获取 Period 的起始时间和结束时间
print(period1.start_time)  # 获取起始时间
print(period1.end_time)    # 获取结束时间

# 将时间段转换为天频率
new_period = period1.asfreq('D')
print(new_period)

二、时间数据的转换与解析

在数据处理的过程中，经常需要将字符串、整数或列表转换为 Pandas 的时间类型。Pandas 提供了非常灵活的 to_datetime 方法来实现这些转换。

import pandas as pd

# 1. 转换字符串为时间类型
date_string = '2030-06-30'
timestamp = pd.to_datetime(date_string)
print(timestamp)

# 2. 转换 Unix 时间戳为时间类型
epoch_seconds = 1909130400  # 2030-07-01 18:00:00 的时间戳
timestamp = pd.to_datetime(epoch_seconds, unit='s')
print(timestamp)

# 3. 转换列表为时间类型
date_list = ['2030-06-30', '2030-07-01', '2030-07-02']
timestamps = pd.to_datetime(date_list)
print(timestamps)

基于多列生成时间对象
当我们有多个表示年、月、日等的列时，可以将这些列组合成一个完整的时间对象。

import pandas as pd

# 创建示例 DataFrame
df = pd.DataFrame({
    'Year': [2030, 2030, 2030],
    'Month': [6, 7, 8],
    'Day': [30, 1, 15],
    'Hour': [8, 12, 18]
})

# 将多列转换为 DatetimeIndex 对象
df['DateTime'] = pd.to_datetime(df[['Year', 'Month', 'Day', 'Hour']])

print(df)

三、时间类型与字符串、数值的转换

在某些场景下，我们需要将时间类型转换为字符串或数值，例如进行文件存储或展示。

1.时间类型转换为字符串

使用 strftime 方法可以将 Timestamp 对象转换为指定格式的字符串。

import pandas as pd

timestamp = pd.Timestamp('2023-06-30')
date_string = timestamp.strftime('%Y-%m-%d')
print(date_string)

2. 时间类型转换为数值（时间戳）

使用 timestamp() 方法可以将 Timestamp 对象转换为 Unix 时间戳（自 1970 年 1 月 1 日以来的秒数）。

import pandas as pd

timestamp = pd.Timestamp('2023-06-30')
epoch_seconds = timestamp.timestamp()
print(epoch_seconds)

四、DatetimeIndex 类的使用

DatetimeIndex 是 Pandas 中用于表示时间序列的索引类。它包含一系列 Timestamp 对象，并提供了丰富的属性和方法，方便时间序列数据的操作和分析。

import pandas as pd

# 创建示例时间序列
dates = ['2030-06-30', '2030-07-01', '2030-07-02', '2030-07-03']
data = [1, 2, 3, 4]

# 创建带有 DatetimeIndex 的 Series
series = pd.Series(data, index=pd.to_datetime(dates))

print(series)

# 访问 DatetimeIndex 的属性
print(series.index.year)
print(series.index.month)
print(series.index.day)
print(series.index.weekday)

五、日期范围的生成与重采样

1.生成日期范围

使用 date_range 方法可以快速生成一系列日期，这对于时间序列分析非常有用。

import pandas as pd

# 生成日期范围
date_range = pd.date_range(start='2030-06-30', end='2030-07-05', freq='D')
print(date_range)

2.重采样与聚合

在时间序列数据处理中，重采样是一个常见操作，例如将日级别的数据转换为月级别或将分钟数据转换为小时数据。

import pandas as pd

# 创建示例时间序列数据
dates = pd.date_range(start='2023-06-01', end='2023-06-30', freq='D')
values = [1, 2, 3, 4, 5, 6]

series = pd.Series(values, index=dates)

# 按周重采样并计算总和
weekly_sum = series.resample('W').sum()
print(weekly_sum)

六、数据特征的分析探索

在时间数据的处理和分析中，常常需要对数据进行统计分析，如频数统计、数据去重等。

1.分类变量的频数统计

使用 value_counts 可以快速统计分类变量的频数。

import pandas as pd

# 创建示例 DataFrame
data = {
    'Category': ['Clothing', 'Electronics', 'Electronics', 'Furniture', 'Clothing', 'Furniture']
}

df = pd.DataFrame(data)

# 计算每个类别出现的次数
category_counts = df['Category'].value_counts()
print(category_counts)

2.其他常用分析方法

Pandas 提供了许多便捷的方法，如计算非缺失值个数、获取唯一值、统计唯一值个数等。

import pandas as pd

# 创建包含缺失值的 Series
series = pd.Series([1, 2, None, 4, None, 6])

# 计算非缺失值的个数
count = series.count()
print(count)

# 获取唯一值
unique_values = series.unique()
print(unique_values)

# 计算唯一值的个数
unique_count = series.nunique()
print(unique_count)

# 获取众数（出现频率最高的值）
mode_values = series.mode()
print(mode_values)

七、数据交叉表与透视表

交叉表和透视表是数据分析中常用的工具，Pandas 提供了 pivot_table 和 crosstab 方法来生成这些表格。

import pandas as pd

# 创建示例 DataFrame
data = {
    'Category': ['服装', '电子产品', '电子产品', '家具', '服装', '家具'],
    'Location': ['A', 'B', 'A', 'B', 'B', 'A'],
    'Sales': [100, 200, 150, 300, 250, 200]
}
df = pd.DataFrame(data)

# 使用 pivot_table 生成透视表
pivot_table = df.pivot_table(values='Sales', index='Category', columns='Location', aggfunc='sum')
print(pivot_table)

# 使用 crosstab 生成交叉表
crosstab_table = pd.crosstab(index=df['Category'], columns=df['Location'], values=df['Sales'], aggfunc='sum')
print(crosstab_table)

八、总结

在 Pandas 中，日期时间数据的处理和分析功能非常强大。无论是基本的时间对象创建、转换，还是复杂的时间序列操作，Pandas 都能提供便捷高效的解决方案。随着时间序列数据在金融、气象、交通等领域的广泛应用，深入掌握 Pandas 的时间数据处理技巧将大大提升数据分析的效率和准确性。希望本文能帮助大家更好地掌握 Pandas 中的日期时间处理。
如果有兴趣深入了解Pandas，请关注以往文章：
深入理解Python数据分析利器——Pandas库详解（一）
深入解析Python的Pandas库：数据分析的利器（二）
深入解析Pandas的Series与DataFrame索引和切片操作（三）
深入理解Pandas：数据处理的核心技能与应用（四）

小高要坚强

关注

10
点赞
踩
14

收藏

觉得还不错? 一键收藏
打赏
0
评论
Pandas 中的日期时间处理：深入理解与实战（五）

在 Pandas 中，日期时间数据的处理和分析功能非常强大。无论是基本的时间对象创建、转换，还是复杂的时间序列操作，Pandas 都能提供便捷高效的解决方案。随着时间序列数据在金融、气象、交通等领域的广泛应用，深入掌握 Pandas 的时间数据处理技巧将大大提升数据分析的效率和准确性。希望本文能帮助大家更好地掌握 Pandas 中的日期时间处理。
复制链接

扫一扫