如何用python进行数据处理?(二)

在昨天的文章中,我们详细介绍了numpy,那么今天,我们就来详细了解一下它的另一个小伙伴“pandas”吧~

pandas

是基于numpy构建的,两个主要的数据结构是Series和DataFrame。
在这里插入图片描述
Series:

Series是一种类似一维数组的对象。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
处理缺失值:删除或者填充
在这里插入图片描述
DataFrame:

DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等),可以看做Series组成的字典(共用一个索引)。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
那么,进入正题:如何使用pyhton处理数据?
在这里插入图片描述
一、读取数据

在这里插入图片描述
共计6578行,7列数据,也可以用shape查看
在这里插入图片描述

二、理解数据指标含义

1.先读取前10行:head函数

在这里插入图片描述
2.查看列的数据类型:dtype函数

1)查看所有列的数据类型:
在这里插入图片描述
2)查看某一列的数据类型:
在这里插入图片描述
3.月均消费次数、月均消费金额、客单价等业务指标代表什么意思?

月均消费次数:一个人从开始购药到结束购药平均每月购买次数,注意每天多次购买算1次

公式:总消费次数/月份数

月均消费金额:从开始购药到结束购药平均每月消费金额

公式:总消费金额/月份数

客单价:总交易金额/客户数,此处客户数量等于社保卡号数量

三、清洗数据
1.选取子集

在这里插入图片描述
2.列名重命名

在这里插入图片描述
传入字典的形式,利用函数rename重新命名列名称,

注意:inplace=False,是默认的,不会修改数据框DataFrame

inplace=True,则修改了数据框。
在这里插入图片描述
3.处理缺失数据
在这里插入图片描述
由此可以看出删除了存在缺失值的行数为3

4.数据类型转换
在这里插入图片描述
数据类型需要转换为数值型,浮点数值类型,本案例已经是浮点型,知悉如何操作

使用astype函数
在这里插入图片描述
处理日期:

分割函数split
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
字符串转换为日期
在这里插入图片描述
在这里插入图片描述
转换日期格式的过程中不符合日期格式的数值将被转换为空值None,需要删除此行
在这里插入图片描述
5.排序
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
方法二:使用reset_index
在这里插入图片描述
在这里插入图片描述
6.处理异常值
在这里插入图片描述
如果省掉loc,则取了一列,是Series结构

如果保持完整的DataFrame,则需要使用loc函数。

四、加工数据
导出清洗后的数据excel文件:
在这里插入图片描述
1.计算月均消费次数

观察数据:
在这里插入图片描述
第一步:删除重复数据,只保留同一个社保卡号同一天一条消费记录

用到函数drop_duplicates,shape:
在这里插入图片描述
用excel检测是否准确:
在这里插入图片描述
结果显示一致,总消费次数为5323

第二步:计算月份数
在这里插入图片描述
第三步:月均消费次数
在这里插入图片描述
2.计算月均消费金额

总消费金额/月份数
在这里插入图片描述
如果想保留两位小数:
在这里插入图片描述
3.计算客单价

总消费金额/社保卡数量
在这里插入图片描述
检查一下:
在这里插入图片描述
在这里插入图片描述
了解更多分析及数据抓取可查看:
http://cloud.yisurvey.com:9081/html/bfd0c1a1-ea90-4ed6-9a2c-1da4cd72391c.html ?ly=csdn
本文转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请联系我们删除处理。
特别说明:本文旨在技术交流,请勿将涉及的技术用于非法用途,否则一切后果自负。如果您觉得我们侵犯了您的合法权益,请联系我们予以处理。

  • 4
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值