如何用python进行数据处理？（二）

大数据苦行僧—yisurvey123

于 2020-12-10 17:21:55 发布

阅读量1.7k

点赞数 4

文章标签：数据库数据分析数据挖掘 python 爬虫

原文链接：https://zhuanlan.zhihu.com/p/104364187

版权

在昨天的文章中，我们详细介绍了numpy，那么今天，我们就来详细了解一下它的另一个小伙伴“pandas”吧~

pandas

是基于numpy构建的，两个主要的数据结构是Series和DataFrame。
在这里插入图片描述
Series:

Series是一种类似一维数组的对象。
在这里插入图片描述

处理缺失值：删除或者填充

DataFrame:

DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔值等），可以看做Series组成的字典（共用一个索引）。

在这里插入图片描述

那么，进入正题：如何使用pyhton处理数据？

一、读取数据

在这里插入图片描述
共计6578行，7列数据，也可以用shape查看

二、理解数据指标含义

1.先读取前10行：head函数

在这里插入图片描述
2.查看列的数据类型：dtype函数

1）查看所有列的数据类型：
在这里插入图片描述
2）查看某一列的数据类型：

3.月均消费次数、月均消费金额、客单价等业务指标代表什么意思？

月均消费次数：一个人从开始购药到结束购药平均每月购买次数，注意每天多次购买算1次

公式：总消费次数/月份数

月均消费金额：从开始购药到结束购药平均每月消费金额

公式：总消费金额/月份数

客单价：总交易金额/客户数，此处客户数量等于社保卡号数量

三、清洗数据
1.选取子集

在这里插入图片描述
2.列名重命名

在这里插入图片描述
传入字典的形式，利用函数rename重新命名列名称，

注意：inplace=False，是默认的，不会修改数据框DataFrame

inplace=True，则修改了数据框。
在这里插入图片描述
3.处理缺失数据

由此可以看出删除了存在缺失值的行数为3

4.数据类型转换
在这里插入图片描述
数据类型需要转换为数值型，浮点数值类型，本案例已经是浮点型，知悉如何操作

使用astype函数
在这里插入图片描述
处理日期：

分割函数split
在这里插入图片描述

字符串转换为日期

转换日期格式的过程中不符合日期格式的数值将被转换为空值None,需要删除此行

5.排序

方法二：使用reset_index

6.处理异常值

如果省掉loc,则取了一列，是Series结构

如果保持完整的DataFrame，则需要使用loc函数。

四、加工数据
导出清洗后的数据excel文件：
在这里插入图片描述
1.计算月均消费次数

观察数据：
在这里插入图片描述
第一步：删除重复数据，只保留同一个社保卡号同一天一条消费记录

用到函数drop_duplicates,shape:
在这里插入图片描述
用excel检测是否准确：

结果显示一致，总消费次数为5323

第二步：计算月份数
在这里插入图片描述
第三步：月均消费次数

2.计算月均消费金额

总消费金额/月份数
在这里插入图片描述
如果想保留两位小数：

3.计算客单价

总消费金额/社保卡数量
在这里插入图片描述
检查一下：

了解更多分析及数据抓取可查看：
http://cloud.yisurvey.com:9081/html/bfd0c1a1-ea90-4ed6-9a2c-1da4cd72391c.html ?ly=csdn
本文转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请联系我们删除处理。
特别说明：本文旨在技术交流，请勿将涉及的技术用于非法用途，否则一切后果自负。如果您觉得我们侵犯了您的合法权益，请联系我们予以处理。

大数据苦行僧—yisurvey123

关注

4
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。