1、数据分析流程
1.1、基本流程
1、明确需求与目的
2、数据收集
(1)内部数据
(2)购买数据
(3)爬取数据
(4)调查问卷
(5)其他收集
3、数据预处理
(1)数据整合:横向整合、纵向整合
(2)数据清洗:缺失值、异常值、重复值
(3)数据转换
4、数据分析
(1)描述分析
(2)推断分析
(3)数据建模:特征工程、超参数调整
(4)数据可视化
5、编写报告
2、读取数据
2.1、导入相关的库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
sns.set(style="darkgrid")
plt.rcParams["font.family"]="SimHei"
plt.rcParams["axes.unicode_minus"]=False
warnings.filterwarnings("ignore")
2.2、数据集加载
data = pd.read_csv("data.csv")
print(data.shape)
data.sample() #数据加载之后,可以用head/tail/sample等方法查看数据的大致情况