今天我们讲一下pandas当中的数据过滤内容
下面小编会给出大概20个案例来详细说明数据过滤的方法,首先我们先建立要用到的数据集,代码如下
import pandas as pd
df = pd.DataFrame({
"name": ["John","Jane","Emily","Lisa","Matt"],
"note": [92,94,87,82,90],
"profession":["Electrical engineer","Mechanical engineer",
"Data scientist","Accountant","Athlete"],
"date_of_birth":["1998-11-01","2002-08-14","1996-01-12",
"2002-10-24","2004-04-05"],
"group":["A","B","B","A","C"]
})
output
name note profession date_of_birth group
0 John 92 Electrical engineer 1998-11-01 A
1 Jane 94 Mechanical engineer 2002-08-14 B
2 Emily 87 Data scientist 1996-01-12 B
3 Lisa 82 Accountant 2002-10-24 A
4 Matt 90 Athlete 2004-04-05 C
## 筛选表格中的若干列
代码如下
```handlebars
df[["name","note"]]
output
name note
0 John 92
1 Jane 94
2 Emily 87
3 Lisa 82
4 Matt 90
再筛选出若干行
我们基于上面搜索出的结果之上,再筛选出若干行,代码如下
df.loc[:3, ["name","note"]]
output
name note
0 John 92
1 Jane 94
2 Emily 87
3 Lisa 82
根据索引来过滤数据
这里我们用到的是iloc方法,代码如下
df.iloc[:3, 2]
output
0 Electrical engineer
1 Mechanical engineer
2 Data scientist
通过比较运算符来筛选数据
df[df.note > 90]
output
name note profession date_of_birth group
0 John 92 Electrical engineer 1998-11-01 A
1 Jane 94 Mechanical engineer 2002-08-14 B
## dt属性接口
dt属性接口是用于处理时间类型的数据的,当然首先我们需要将字符串类型的数据,或者其他类型的数据转换成事件类型的数据,然后再处理,代码如下
```handlebars
df.date_of_birth = df.date_of_birth.astype("datetime64[ns]")
df[df.date_of_birth.dt.month==11]
output
name note profession date_of_birth group
0 John 92 Electrical engineer 1998-11-01 A
或者我们也可以
df[df.date_of_birth.dt.year > 2000]
output
name note profession date_of_birth group
1 Jane 94 Mechanical engineer 2002-08-14 B
3 Lisa 82 Accountant 2002-10-24 A
4 Matt 90 Athlete 2004-04-05 C
多个条件交集过滤数据
当我们遇上多个条件,并且是交集的情况下过滤数据时,代码应该这么来写
df[(df.date_of_birth.dt.year > 2000) &
(df.profession.str.contains("engineer"))]
output
name note profession date_of_birth group
1 Jane 94 Mechanical engineer 2002-08-14 B
多个条件并集筛选数据
当多个条件是以并集的方式来过滤数据的时候,代码如下
df[(df.note > 90) | (df.profession=="Data scientist")]
output
name note profession date_of_birth group
0 John 92 Electrical engineer 1998-11-01 A
1 Jane 94 Mechanical engineer 2002-08-14 B
2 Emily 87 Data scientist 1996-01-12 B
Query方法过滤数据
Pandas当中的query方法也可以对数据进行过滤,我们将过滤的条件输入
df.query("note > 90")
output
name note profession date_of_birth group
0 John 92 Electrical engineer 1998-11-01 A
1 Jane 94 Mechanical engineer 2002-08-14 B
又或者是
df.query("group=='A' and note > 89")
output
name note profession date_of_birth group
0 John 92 Electrical engineer 1998-11-01 A
nsmallest方法过滤数据
pandas当中的nsmallest以及nlargest方法是用来找到数据集当中最大、最小的若干数据,代码如下
df.nsmallest(2, "note")
output
name note profession date_of_birth group
3 Lisa 82 Accountant 2002-10-24 A
2 Emily 87 Data scientist 1996-01-12 B
df.nlargest(2, "note")
output
name note profession date_of_birth group
1 Jane 94 Mechanical engineer 2002-08-14 B
0 John 92 Electrical engineer 1998-11-01 A
isna()方法
isna()方法功能在于过滤出那些是空值的数据,首先我们将表格当中的某些数据设置成空值
df.loc[0, "profession"] = np.nan
df[df.profession.isna()]
output
name note profession date_of_birth group
0 John 92 NaN 1998-11-01 A
notna()方法
notna()方法上面的isna()方法正好相反的功能在于过滤出那些不是空值的数据,代码如下
df[df.profession.notna()]
output
name note profession date_of_birth group
1 Jane 94 Mechanical engineer 2002-08-14 B
2 Emily 87 Data scientist 1996-01-12 B
3 Lisa 82 Accountant 2002-10-24 A
4 Matt 90 Athlete 2004-04-05 C
assign方法
pandas当中的assign方法作用是直接向数据集当中来添加一列
df_1 = df.assign(score=np.random.randint(0,100,size=5))
df_1
output
name note profession date_of_birth group score
0 John 92 Electrical engineer 1998-11-01 A 19
1 Jane 94 Mechanical engineer 2002-08-14 B 84
2 Emily 87 Data scientist 1996-01-12 B 68
3 Lisa 82 Accountant 2002-10-24 A 70
4 Matt 90 Athlete 2004-04-05 C 39
explode方法
explode()方法直译的话,是爆炸的意思,我们经常会遇到这样的数据集
Name Hobby
0 吕布 [打篮球, 玩游戏, 喝奶茶]
1 貂蝉 [敲代码, 看电影]
2 赵云 [听音乐, 健身]
Hobby列当中的每行数据都以列表的形式集中到了一起,而explode()方法则是将这些集中到一起的数据拆开来,代码如下
Name Hobby
0 吕布 打篮球
0 吕布 玩游戏
0 吕布 喝奶茶
1 貂蝉 敲代码
1 貂蝉 看电影
2 赵云 听音乐
2 赵云 健身
当然我们会展开来之后,数据会存在重复的情况,
df.explode('Hobby').drop_duplicates().reset_index(drop=True)
output
Name Hobby
0 吕布 打篮球
1 吕布 玩游戏
2 吕布 喝奶茶
3 貂蝉 敲代码
4 貂蝉 看电影
5 赵云 听音乐
6 赵云 健身
好了,这就是今天分享的内容,一键三连走起呀~
如果你对Python感兴趣的话,可以试试我整理的这份Python全套学习资料,微信扫描下方二维码免费领取
包括:Python永久使用安装包、Python web开发,Python,Python数据分析,人工智能、机器学习等学习教程。带你从零基础系统性的学好Python!
零基础Python学习资源介绍
一、Python所有方向的学习路线
Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
二、Python学习软件
工欲善其事,必先利其器。学习Python常用的开发软件都在这里了!
三、Python入门学习视频
还有很多适合0基础入门的学习视频,有了这些视频,轻轻松松上手Python~
四、Python练习题
每节视频课后,都有对应的练习题哦,可以检验学习成果哈哈!
五、Python实战案例
光学理论是没用的,要学会跟着一起敲代码,动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。这份资料也包含在内的哈~
六、Python面试资料
我们学会了Python之后,有了技能就可以出去找工作啦!下面这些面试题是都来自阿里、腾讯、字节等一线互联网大厂,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。
七、资料领取
上述完整版Python全套学习资料已经上传CSDN官方,需要的小伙伴可自行微信扫描下方CSDN官方认证二维码输入“领取资料”免费领取!!