一、数据分析的基本步骤
1. 明确问题,理解数据
(1)先把问题了解清楚,明确分析背景及目的
(2)了解数据集的整体情况
(3)明确分析思路
2. 数据清洗
(1)确定数据集
(2)处理重复值和缺失值
(3)处理数据类型/格式
(4)处理异常值
3. 构建模型,可视化分析
构建分析模型,利用可视化图表进行分析
4. 结论及建议
根据分析得出结论,并给出相应的建议
二、如何理解数据
当我们得到数据集时,可以通过提取数据集的描述统计信息,初步了解数据集的整体情况第一步,导入文件
2. 第二步,检查数据导入是否完整
用shape属性查看行列数
3. 第三步,预览表格整体情况
用head()方法打印前5行
4. 第四步,检查各字段的数据类型是否正确
用dtypes属性
三、如何进行数据清洗确定数据集
(1)选择子集
当我们不需要那么多数据时,可以通过筛选来选出需要的数据集,比如现在我只需要前5行前3列数据
(2)列名重命名