python数据分析-第六节_y=data[temp:r[i]+temp]-CSDN博客

本文链接：https://blog.csdn.net/weixin_45900734/article/details/115087730

pandas之时间序列

文章目录

pandas之时间序列

不管在什么行业，时间序列都是一种非常重要的数据形式，很多统计数据以及数据的规律也都和时间序列有着非常重要的联系
而且在pandas中处理时间序列是非常简单的
在这里插入图片描述

911案例

不同类型的统计

"""
现在我们有2015到2017年25万条911的紧急电话的数据，
请统计出出这些数据中不同类型的紧急情况的次数，如果
我们还想统计出不同月份不同类型紧急电话的次数的
变化情况，应该怎么做呢？
"""
import pandas as pd
import matplotlib
from matplotlib import pyplot as plt
import numpy as np

file_path = "911.csv"
df = pd.read_csv(file_path)

# 获取分类
temp_list = df["title"].str.split(":").to_list()
cate_list = list(set([i[0] for i in temp_list]))
print(cate_list)

# 构造全为0的数组
zeros_df = pd.DataFrame(np.zeros((df.shape[0],len(cate_list))),columns=cate_list)

# 赋值
for cate in cate_list:
    zeros_df[cate][df["title"].str.contains(cate)] = 1
# print(zeros_df.head(20))

# 赋值法2
# for i in range(df.shape[0]):
#     zeros_df.loc[i,temp_list[i][0]]=1
# print(zeros_df)
sum_ret = zeros_df.sum(axis=0)
print(sum_ret)

不同月份的统计

import pandas as pd
import matplotlib
from matplotlib import pyplot as plt
import numpy as np

file_path = "911.csv"
df = pd.read_csv(file_path)

df["timeStamp"] = pd.to_datetime(df["timeStamp"])
df.set_index("timeStamp",inplace=True)

count_by_month = df.resample("M").count()["title"]
print(count_by_month)

_x = count_by_month.index
_y = count_by_month.values

_x = [i.strftime("%Y%m%d") for i in _x]

plt.figure(figsize=(20,8),dpi=80)
plt.plot(range(len(_x)),_y)
plt.xticks(range(len(_x)),_x,rotation=45)
plt.show()

不同月份中不同类型的统计

import pandas as pd
import matplotlib
from matplotlib import pyplot as plt
import numpy as np

file_path = "911.csv"
df = pd.read_csv(file_path)
df["timeStamp"] = pd.to_datetime(df["timeStamp"])

# 添加列，表示分类
temp_list = df["title"].str.split(":").tolist()
catr_list = [i[0] for i in temp_list]
df["cate"] = pd.DataFrame(np.array(catr_list).reshape((df.shape[0],1)))

# 把时间字符串转为时间类型设置为索引
df.set_index("timeStamp",inplace=True)

plt.figure(figsize=(20,8),dpi=80)

# 分组
for group_name,group_data in df.groupby(by="cate"):
    # 对不同的分类进行绘图
    count_by_month = group_data.resample("M").count()["title"]

    # 画图
    _x = count_by_month.index
    _y = count_by_month.values

    _x = [i.strftime("%Y%m%d") for i in _x]

    plt.plot(range(len(_x)),_y,label=group_name)

plt.xticks(range(len(_x)),_x,rotation=45)
plt.legend(loc="best")
plt.show()

PM2.5案例

import pandas as pd
import matplotlib
from matplotlib import pyplot as plt
file_path = "BeijingPM20100101_20151231.csv"

df = pd.read_csv(file_path)
# print(df.head())
# print(df.info())

period = pd.PeriodIndex(year=df["year"],month=df["month"],day=df["day"],hour=df["hour"],freq="H")
df["datetime"] = period
# print(df.head(10))

# 把datetime 设置为索引
df.set_index("datetime",inplace=True)

# 进行降采样
df = df.resample("7D").mean()


# 处理缺失数据，删除缺失数据
print(df["PM_US Post"])
data = df["PM_US Post"].dropna()

# 画图
_x = data.index
_x = [i.strftime("%Y%M%D") for i in _x]
_y = data.values

plt.figure(figsize=(16,8),dpi=80)
plt.plot(range(len(_x)),_y)
plt.xticks(range(0,len(_x),30),list(_x)[::30],rotation=45)
plt.show()