pandas之时间序列
不管在什么行业,时间序列都是一种非常重要的数据形式,很多统计数据以及数据的规律也都和时间序列有着非常重要的联系
而且在pandas中处理时间序列是非常简单的
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/52be4285967f695ffd45cd2e7cf2e695.png)
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/ddd152136165d94e59dde0dead965349.png)
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/80227821b50efd75712d610affd1539a.png)
911案例
不同类型的统计
"""
现在我们有2015到2017年25万条911的紧急电话的数据,
请统计出出这些数据中不同类型的紧急情况的次数,如果
我们还想统计出不同月份不同类型紧急电话的次数的
变化情况,应该怎么做呢?
"""
import pandas as pd
import matplotlib
from matplotlib import pyplot as plt
import numpy as np
file_path = "911.csv"
df = pd.read_csv(file_path)
# 获取分类
temp_list = df["title"].str.split(":").to_list()
cate_list = list(set([i[0] for i in temp_list]))
print(cate_list)
# 构造全为0的数组
zeros_df = pd.DataFrame(np.zeros((df.shape[0],len(cate_list))),columns=cate_list)
# 赋值
for cate in cate_list:
zeros_df[cate][df["title"].str.contains(cate)] = 1
# print(zeros_df.head(20))
# 赋值法2
# for i in range(df.shape[0]):
# zeros_df.loc[i,temp_list[i][0]]=1
# print(zeros_df)
sum_ret = zeros_df.sum(axis=0)
print(sum_ret)
不同月份的统计
import pandas as pd
import matplotlib
from matplotlib import pyplot as plt
import numpy as np
file_path = "911.csv"
df = pd.read_csv(file_path)
df["timeStamp"] = pd.to_datetime(df["timeStamp"])
df.set_index("timeStamp",inplace=True)
count_by_month = df.resample("M").count()["title"]
print(count_by_month)
_x = count_by_month.index
_y = count_by_month.values
_x = [i.strftime("%Y%m%d") for i in _x]
plt.figure(figsize=(20,8),dpi=80)
plt.plot(range(len(_x)),_y)
plt.xticks(range(len(_x)),_x,rotation=45)
plt.show()
不同月份中不同类型的统计
import pandas as pd
import matplotlib
from matplotlib import pyplot as plt
import numpy as np
file_path = "911.csv"
df = pd.read_csv(file_path)
df["timeStamp"] = pd.to_datetime(df["timeStamp"])
# 添加列,表示分类
temp_list = df["title"].str.split(":").tolist()
catr_list = [i[0] for i in temp_list]
df["cate"] = pd.DataFrame(np.array(catr_list).reshape((df.shape[0],1)))
# 把时间字符串转为时间类型设置为索引
df.set_index("timeStamp",inplace=True)
plt.figure(figsize=(20,8),dpi=80)
# 分组
for group_name,group_data in df.groupby(by="cate"):
# 对不同的分类进行绘图
count_by_month = group_data.resample("M").count()["title"]
# 画图
_x = count_by_month.index
_y = count_by_month.values
_x = [i.strftime("%Y%m%d") for i in _x]
plt.plot(range(len(_x)),_y,label=group_name)
plt.xticks(range(len(_x)),_x,rotation=45)
plt.legend(loc="best")
plt.show()
PM2.5案例
import pandas as pd
import matplotlib
from matplotlib import pyplot as plt
file_path = "BeijingPM20100101_20151231.csv"
df = pd.read_csv(file_path)
# print(df.head())
# print(df.info())
period = pd.PeriodIndex(year=df["year"],month=df["month"],day=df["day"],hour=df["hour"],freq="H")
df["datetime"] = period
# print(df.head(10))
# 把datetime 设置为索引
df.set_index("datetime",inplace=True)
# 进行降采样
df = df.resample("7D").mean()
# 处理缺失数据,删除缺失数据
print(df["PM_US Post"])
data = df["PM_US Post"].dropna()
# 画图
_x = data.index
_x = [i.strftime("%Y%M%D") for i in _x]
_y = data.values
plt.figure(figsize=(16,8),dpi=80)
plt.plot(range(len(_x)),_y)
plt.xticks(range(0,len(_x),30),list(_x)[::30],rotation=45)
plt.show()