如何使用 python 中 pandas 进行数据分析?

123 篇文章 1 订阅
32 篇文章 0 订阅

前言

毋庸置疑,pandas是Python数据分析最常用的包,其便捷的函数用法和高效的数据处理方法深受从事数据分析相关工作人员的喜爱,极大提高了数据处理的效率,作为京东的经营分析人员,也经常使用pandas进行数据分析。

下面我将带领大家速学pandas数据分析,内容包含安装pandas、数据导入、数据预览、数据排序、分组聚合、数据可视化、数据导出,使用案例教大家pandas如何实现数据分析,熟练掌握后可深入学习其他知识点,下面一起学习~

1. 安装pandas

使用pandas的功能,需要下载pandas包,Anaconda中打开jupyterNotebook,在代码行中输入如下命令进行下载。

#下载包 
!pip install pandas

如网络慢,无法下载,可指定国内源快速下载安装,就是在下载包的命令后加-i,然后添加具体的镜像网址。

#添加镜像网址下载 
!pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple

安装pands包以后,引入pandas包,起一个别名叫pd,同时查看pandas包的版本,打印结果是1.1.5版本。

# 引入 Pandas库,按惯例起别名pd 
import pandas as pd
 
#打印版本号
pd.__version__

img

2. 数据导入

如何使用Python导入.xlsx文件,导入.xlsx文件的参数如下所示,关于read_excel参数比较多,只需要掌握常用的几个参数即可。

pd.read_excel(io, sheet_name=0, header=0, names=None, index_col=None,usecols=None, 
              squeeze=False,dtype=None,engine=None,converters=None,true_values=None,
              false_values=None,skiprows=None,nrows=None,na_values=None,parse_dates=False,
              date_parser=None,thousands=None, comment=None, skipfooter=0, 
              convert_float=True, **kwds)

使用read_excel命令导入数据,写入路径即可导入数据,数据包含日期、订单号、区域、省份等数据字段。

import pandas as pd

df=pd.read_excel(r'D:\系统桌面(勿删)\Desktop\电商销售数据-23年8月.xlsx',parse_dates=['日期'])
df

img

3. 数据预览

拿到一组数据以后,我们首先对数据做个预览,看看数据的基本特征,df.head()可以预览前5行数据,df.tail()可以预览后5行数据。

#预览前五行数据
df.head()

#预览后五行数据
df.tail()

img

使用df.shape命令查看数据包含的行数和列数,打印结果为(7409, 13),表示数据有7409行,13列。

df.shape

(7409, 13)

可以使用df.columns命令对数据字段进行预览

df.columns

img

使用df.dtypes命令查看数据类型,其中,日期是日期型,区域为字符型,销售数为数值型。

df.dtypes

img

使用http://df.info()命令查看查看索引、数据类型和内存信息。

df.info()

img

对数据做基本的描述统计可以有以下特征:

  • 数据包含7409行数据,客户平均年龄为42岁,最小年龄22岁,最大年龄62岁;
  • 平均进货价格12427元,平均销售数7单,平均销售额81022元,平均利润16857元;
  • 销售数中位数为7单,销售额中位数为61850元,利润销售额为8560元。
df.describe().round(0)

img

4. 数据筛选

拿到一组数据,并不是所有的数据都能符合自己的数据分析需要,就要对数据做个筛选,比如筛选出客户年龄为22岁的包括“销售数”,“销售额”,“利润”三个字段数据,可以使用[ ]进行筛选。

df_age_22=df[df['客户年龄']==22][['客户年龄','销售数','销售额','利润']] 
df_age_22

img

如果要添加多条件进行筛选,可以使用&符号添加多个筛选条件,比如这里同时筛选客户年龄为22岁且利润大于10万的所有客户数据,就可以分别作为筛选条件,然后使用&符号连接起来。

df_age_22_sale=df[(df['客户年龄']==22)&(df['利润']>100000)] 
df_age_22_sale

img

看到这里是不是觉得,使用pandas仅需要几行代码即可实现复杂的Excel数据操作,当然,这仅仅是pandas功能中的很小的一部分,如果要加强学习pandas,建议系统性地进行学习。

-END-


Python入门教程

如果大家对python感兴趣,下面我会给大家免费分享一份Python全套学习资料, 包含视频、源码、课件,希望能帮到那些不满现状,想提升自己却又没有方向的朋友,可以和我一起来学习交流。

① Python所有方向的学习路线图,清楚各个方向要学什么东西

② 600多节Python课程视频,涵盖必备基础、爬虫和数据分析

③ 100多个Python实战案例,含50个超大型项目详解,学习不再是只会理论

④ 20款主流手游迫解 爬虫手游逆行迫解教程包

爬虫与反爬虫攻防教程包,含15个大型网站迫解

爬虫APP逆向实战教程包,含45项绝密技术详解

⑦ 超300本Python电子好书,从入门到高阶应有尽有

⑧ 华为出品独家Python漫画教程,手机也能学习

⑨ 历年互联网企业Python面试真题,复习时非常方便

在这里插入图片描述

👉Python学习视频600合集👈

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

👉实战案例👈

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

👉100道Python练习题👈

检查学习结果。

👉面试刷题👈

在这里插入图片描述

资料领取

这份完整版的Python全套学习资料已经上传网盘,朋友们如果需要可以点击下方微信卡片免费领取 ↓↓↓【保证100%免费】
或者

点此链接】领取

  • 5
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值