根据北京市2010-2014年的PM2.5数据,预测北京市每月PM2.5的值和分析影响PM2.5的主要因素。
具体的数据如下
数据处理环境:Anaconda(官方网站)就是可以便捷获取包且对包能够进行管理,同时对环境可以统一管理的发行版本。Anaconda包含了conda、Python在内的超过180个科学包及其依赖项。我们选择anaconda环境,在jupyter notebook进行代码编写。
我们导入模块,使用pandas读取数据集
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn a sns
df = pd.read_csv("PRSA_data_2010.1.1-2014.12.31.csv", index_col=0)
之后对数据进行去除空值的操作df = df.dropna()
并绘制绘制相关系数矩阵寻找影响PM2.5的因素
df