Python数据分析的基本过程_python进行数据分析的基本流程-CSDN博客

本文链接：https://blog.csdn.net/weixin_67991858/article/details/129619437

本文详细介绍了Python进行数据分析的过程，包括提出问题、理解数据、数据清洗和构建模型。内容涵盖数据导入、数据清洗（处理缺失值、异常值）、数据类型转换和数据排序。还分享了如何计算月均消费次数、月均消费金额和客单价等关键指标，并提供了Python学习资源和实战案例。

摘要由CSDN通过智能技术生成

一般来说，数据分析的基本过程包括以下几个步骤：

1.提出问题——即我们所想要知道的指标（平均消费额、客户的年龄分布、营业额变化趋势等等）

2.导入数据——把原始数据源导入Jupyter Notebook中（网络爬虫、数据读取等）

3.数据清洗——数据清洗是指发现并纠正数据文件中可识别的错误（检查数据一致性，处理无效值和缺失值等）

4.构建模型（高级的模型构建会使用机器学习的算法）

5.数据可视化——matplotib库等

具体的numpy库等基础知识之前的文章已经介绍了：

Numy基础知识分享

Pandas入门基本知识

我们现在来看一个实例——医院药店销售数据分析

原始数据连接：

https://pan.baidu.com/s/1zklAFKSCQOi_xxTGNgeRXQpan.baidu.com/s/1zklAFKSCQOi_xxTGNgeRXQ

原始数据预览（部分）：

提出问题：

我们想知道的信息有——月均消费额、月均消费次数、客单价、消费趋势

理解数据：

1.读取Excel数据（路径中最好不要有中文，或者特殊符号啥的，不然路径会提示错误找不到。

最好将文件放到一个简单的英文路径下）

import pandas as pd
fileNameStr='D:\朝阳医院2018年销售数据.xlsx'          #读取Ecxcel数据
xls = pd.ExcelFile(fileNameStr, dtype='object')   
salesDf = xls.parse('Sheet1',dtype='object')

我们可以先查看下数据的基本信息：

salesDf.head()          #打印出前5行，以确保数据运行正常

salesDf.shape           #有多少行，多少列

salesDf.dtypes          #查看每列的数据类型

数据清洗：

1.选择子集（本案例不用）：