在昨天的文章中,我们详细介绍了numpy,那么今天,我们就来详细了解一下它的另一个小伙伴“pandas”吧~
pandas
是基于numpy构建的,两个主要的数据结构是Series和DataFrame。
Series:
Series是一种类似一维数组的对象。
处理缺失值:删除或者填充
DataFrame:
DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等),可以看做Series组成的字典(共用一个索引)。
那么,进入正题:如何使用pyhton处理数据?
一、读取数据
共计6578行,7列数据,也可以用shape查看
二、理解数据指标含义
1.先读取前10行:head函数
2.查看列的数据类型:dtype函数
1)查看所有列的数据类型:
2)查看某一列的数据类型:
3.月均消费次数、月均消费金额、客单价等业务指标代表什么意思?
月均消费次数:一个人从开始购药到结束购药平均每月购买次数,注意每天多次购买算1次
公式:总消费次数/月份数
月均消费金额:从开始购药到结束购药平均每月消费金额
公式:总消费金额/月份数
客单价:总交易金额/客户数,此处客户数量等于社保卡号数量
三、清洗数据
1.选取子集
2.列名重命名
传入字典的形式,利用函数rename重新命名列名称,
注意:inplace=False,是默认的,不会修改数据框DataFrame
inplace=True,则修改了数据框。
3.处理缺失数据
由此可以看出删除了存在缺失值的行数为3
4.数据类型转换
数据类型需要转换为数值型,浮点数值类型,本案例已经是浮点型,知悉如何操作
使用astype函数
处理日期:
分割函数split
字符串转换为日期
转换日期格式的过程中不符合日期格式的数值将被转换为空值None,需要删除此行
5.排序
方法二:使用reset_index
6.处理异常值
如果省掉loc,则取了一列,是Series结构
如果保持完整的DataFrame,则需要使用loc函数。
四、加工数据
导出清洗后的数据excel文件:
1.计算月均消费次数
观察数据:
第一步:删除重复数据,只保留同一个社保卡号同一天一条消费记录
用到函数drop_duplicates,shape:
用excel检测是否准确:
结果显示一致,总消费次数为5323
第二步:计算月份数
第三步:月均消费次数
2.计算月均消费金额
总消费金额/月份数
如果想保留两位小数:
3.计算客单价
总消费金额/社保卡数量
检查一下:
了解更多分析及数据抓取可查看:
http://cloud.yisurvey.com:9081/html/bfd0c1a1-ea90-4ed6-9a2c-1da4cd72391c.html ?ly=csdn
本文转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请联系我们删除处理。
特别说明:本文旨在技术交流,请勿将涉及的技术用于非法用途,否则一切后果自负。如果您觉得我们侵犯了您的合法权益,请联系我们予以处理。