一般来说,数据分析的基本过程包括以下几个步骤:
1.提出问题——即我们所想要知道的指标(平均消费额、客户的年龄分布、营业额变化趋势等等)
2.导入数据——把原始数据源导入Jupyter Notebook中(网络爬虫、数据读取等)
3.数据清洗——数据清洗是指发现并纠正数据文件中可识别的错误(检查数据一致性,处理无效值和缺失值等)
4.构建模型(高级的模型构建会使用机器学习的算法)
5.数据可视化——matplotib库等
具体的numpy库等基础知识之前的文章已经介绍了:
我们现在来看一个实例——医院药店销售数据分析
原始数据连接:
https://pan.baidu.com/s/1zklAFKSCQOi_xxTGNgeRXQpan.baidu.com/s/1zklAFKSCQOi_xxTGNgeRXQ
原始数据预览(部分):
提出问题:
我们想知道的信息有——月均消费额、月均消费次数、客单价、消费趋势
理解数据:
1.读取Excel数据(路径中最好不要有中文,或者特殊符号啥的,不然路径会提示错误找不到。
最好将文件放到一个简单的英文路径下)
import pandas as pd
fileNameStr='D:\朝阳医院2018年销售数据.xlsx' #读取Ecxcel数据
xls = pd.ExcelFile(fileNameStr, dtype='object')
salesDf = xls.parse('Sheet1',dtype='object')
我们可以先查看下数据的基本信息:
salesDf.head() #打印出前5行,以确保数据运行正常
salesDf.shape #有多少行,多少列
salesDf.dtypes #查看每列的数据类型
数据清洗:
1.选择子集(本案例不用):