Python数据分析的基本过程

一般来说,数据分析的基本过程包括以下几个步骤:

1.提出问题——即我们所想要知道的指标(平均消费额、客户的年龄分布、营业额变化趋势等等)

2.导入数据——把原始数据源导入Jupyter Notebook中(网络爬虫、数据读取等)

3.数据清洗——数据清洗是指发现并纠正数据文件中可识别的错误(检查数据一致性,处理无效值和缺失值等)

4.构建模型(高级的模型构建会使用机器学习的算法)

5.数据可视化——matplotib库等

具体的numpy库等基础知识之前的文章已经介绍了:

Numy基础知识分享

Pandas入门基本知识

我们现在来看一个实例——医院药店销售数据分析

原始数据连接:

https://pan.baidu.com/s/1zklAFKSCQOi_xxTGNgeRXQ​pan.baidu.com/s/1zklAFKSCQOi_xxTGNgeRXQ

原始数据预览(部分):

提出问题

我们想知道的信息有——月均消费额、月均消费次数、客单价、消费趋势

理解数据

1.读取Excel数据(路径中最好不要有中文,或者特殊符号啥的,不然路径会提示错误找不到。

最好将文件放到一个简单的英文路径下)

import pandas as pd
fileNameStr='D:\朝阳医院2018年销售数据.xlsx'          #读取Ecxcel数据
xls = pd.ExcelFile(fileNameStr, dtype='object')   
salesDf = xls.parse('Sheet1',dtype='object')

我们可以先查看下数据的基本信息:

salesDf.head()          #打印出前5行,以确保数据运行正常

salesDf.shape           #有多少行,多少列

salesDf.dtypes          #查看每列的数据类型

数据清洗

1.选择子集(本案例不用):

使用loc方法选择子集

#subSalesDf=
  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值