一、Numy和Pandas包
numpy和pandas是数据分析绝对绕不过的工具包。numpy是Python的数值计算扩展,专门用来处理矩阵,它的运算效率比列表更高效。pandas是基于numpy的数据分析工具,能更方便的操作大型数据集。
以下是对numpy和pandas的基础知识的总结:
二、数据分析过程
数据分析过程如下:
三、实际数据分析
本文以朝阳医院2018年药品销售数据为例,利用上述分析工具,按照完整的分析流程进行数据分析。
1、提出问题
数据分析的首要任务就是明确分析的目标,即需要分析什么,分析的目的是什么。实际工作中需要和业务部门进行沟通确定分析的任务。本次练习中需要分析的指标有月消费次数、月均消费金额、客单价以及消费趋势。
2、理解数据
利用pandas包对数据进行查看,了解数据的基本情况。
(1)读取数据
(2查看行数和列数
(3)查看数据类型
3、数据清洗
(1)选择子集
本次案例对全部数据进行分析,因此不需要选择子集。
(2)列名重命名
将‘购药时间’改为‘销售时间’
(3)缺失数据处理
由于缺失数据量很小,本次案例采取删除缺失值的方法处理。
(4)数据类型转换
首先对社保卡号,商品编码数据继续数据类型的转换
接着对日期数据进行处理,先分割字符串,再用索引提取日期数据
将‘销售时间’这一列数据类型转换为日期型
报错,根据错误提示得知,日期中存在2018-02-29的数据,但是实际中并没有2018-02-29,所以转换失败,因此我们将日期为2018-02-29的数据删除再转换数据类型,这里利用条件筛选。
(5)排序
按销售时间进行排序,排序完需要重新设置索引。
(6)异常值处理
首先利用描述统计信息来查看数据中是否有异常值。
发现销售数量、应收金额、实收金额数据均存在负值,与实际情况不符,判定为异常值。
接着处理异常值,采取删除的方法。
4、数据分析
通过上述的数据处理工作,得到了分析中想要的数据。接下来利用这些数据计算分析问题中的指标。
(1)月均消费次数
月均消费次数=总消费次数/月份数
需要明确的是,本文将同一天内同一个人发生的所有消费算作一次消费。因此需要删除同一天同一人重复消费的数据,才能得到总消费次数。
月份数则利用最大日期和最小日期相差的天数,除以30天而得到。
(2)月均消费金额
月均消费金额=总消费金额/月份数
(3)客单价
客单价=总消费金额/总消费次数
(4)消费趋势
提取日期中的月份作为新的变量‘月’,描述月消费金额,月消费次数的变化趋势。
绘制消费趋势折线图
由图可以看出,消费金额和消费次数的变化趋势基本一致,4月份的销售金额和消费次数最多,7月的数据最低这是由于数据仅收集到7月19号,7月的数据并不完整。
Python经验分享
学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!
Python学习路线
这里把Python常用的技术点做了整理,有各个领域的知识点汇总,可以按照上面的知识点找对应的学习资源。
学习软件
Python常用的开发软件,会给大家节省很多时间。
学习视频
编程学习一定要多多看视频,书籍和视频结合起来学习才能事半功倍。
100道练习题
实战案例
光学理论是没用的,学习编程切忌纸上谈兵,一定要动手实操,将自己学到的知识运用到实际当中。
最后祝大家天天进步!!
上面这份完整版的Python全套学习资料已经上传至CSDN官方,朋友如果需要可以直接微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】。