第4.1章 Pandas数据选择

最新推荐文章于 2023-11-15 17:56:51 发布

jack the monkey

最新推荐文章于 2023-11-15 17:56:51 发布

阅读量170

点赞数

分类专栏： Pandas笔记文章标签： pandas python 数据分析

本文链接：https://blog.csdn.net/weixin_44626528/article/details/128985619

版权

Pandas笔记专栏收录该内容

11 篇文章 0 订阅

订阅专栏

1.1 选择列

下两种方法都可以取一列数据，得到的数据类型为Series：

df['name'] # 会返回本列的Series, 下同
df.name
df.Q1

两种操作方法效果是一样的，切片（[]）操作比较通用，当列名为一个合法的Python变量时，可以直接使用点操作（.name）为属性去使用。如列名为1Q、my name等，则无法使用点操作，因为变量不允许以数字开头或存在空格，如果想使用可以将列名处理，如将空格替换为下划线、增加字母开头前缀，如s_1Q、my_name。

1.2 切片[]

用切片功能选择部分行的数据，但是不支持仅索引一条数据：

df[:2] # 前两行数据
df[4:10]
df[:] # 所有数据，一般不这么用
df[:10:2] # 按步长取
s[::-1] # 反转顺序
df[2] # 报错！

需要注意的是，切片的逻辑和Python列表的逻辑一样，不包括右边的索引值。如果切片里是一个列名组成的列表，则可筛选出这些列：

df[['name','Q4']]

df[['name']] # 选择一列，返回DataFrame，注意与下例进行区分
df['name'] # 只有一列，返回Series

1.3 按轴标签.loc

df.loc的格式是df.loc[<行表达式>, <列表达式>]，如列表达式部分不传，将返回所有列，Series仅支持行表达式进行索引的部分。loc操作通过索引和列的条件筛选出数据。如果仅返回一条数据，则类型为Series

以下示例为单个索引：

# 代表索引，如果是字符，需要加引号
df.loc[0] # 选择索引为0的行
df.loc[8]

# 索引为name
df.set_index('name').loc['Ben']

下示例为列表组成的索引：

df.loc[[0,5,10]] # 指定索引为0，5，10的行

df.set_index('name').loc[['Eli','Ben']] # 两位学生，索引是name
df.loc[[False, True]*50] # 为真的列显示，隔一个显示一个

下示例为带标签的切片（包括起始和停止）：

df.loc[0:5] # 索引切片，代表0～5行，包括5
df.loc['2010':'2014'] # 如果索引是时间，可以用字符查询
df.loc[:] # 所有
# 本方法支持Series

附带列筛选，必须有行筛选。列部分的表达式可以是一个由希望筛选的表名组成的列表，也可以是一个用冒号隔开的切片形式，来表示从左到右全部包含，左侧和右侧可以分别省略，表示本侧所有列。

df.loc[0:5, ['name', 'Q2']]
df.loc[0:9, ['Q1', 'Q2']] #前10行，Q1和Q2两列
df.loc[:, ['Q1', 'Q2']] # 所有行，Q1和Q2两列
df.loc[:10, 'Q1':] # 0～10行，Q1后边的所有列
df.loc[:, :] # 所有内容

1.4 数字索引.iloc

与loc[]可以使用索引和列的名称不同，利用df.iloc[<行表达式>, <列表达式>]格式可以使用数字索引（行和列的0～n索引）进行数据筛选，意味着iloc[]的两个表达式只支持数字切片形式，其他方面是相同的。

df.iloc[:3] # 前三行
s.iloc[:3] # 序列中的前三个
df.iloc[:] # 所有数据
df.iloc[2:20:3] #步长为3
df.iloc[:3, [0,1]] # 前两列
df.iloc[:3, :] # 所有列
df.iloc[:3, :-2] # 从右往左第三列(含)以左的所有列

1.5 取具体值.at/.iat

如果需要取数据中一个具体的值，就像取平面直角坐标系中的一个点一样，可以使用.at[]来实现。.at类似于loc，仅取一个具体的值，结构为df.at[<索引>,<列名>]。如果是一个Series，可以直接值入索引取到该索引的值。

# 注：索引是字符，需要加引号
df.at[4, 'Q1'] # 65
df.set_index('name').at['Ben', 'Q1'] # 21 
索引是name
df.at[0, 'name'] # 'Liver'
df.loc[0].at['name'] # 'Liver'
# 指定列的值对应其他列的值
df.set_index('name').at['Eorge', 'team'] # 'C'
df.set_index('name').team.at['Eorge'] # 'C'
# 指定列的对应索引的值
df.team.at[3] #'C'

1.6 取数据.get

.get可以做类似字典的操作，如果无值，则返回默认值（下例中是0）。格式为df.get(key, default=None)，如果是DataFrame，key需要传入列名，返回的是此列的Series；如果是Series，需要传入索引，返回的是一个定值：

df.get('name', 0) # 是name列
df.get('nameXXX', 0) # 0，返回默认值
s.get(3, 0) # 93，Series传索引返回具体值
df.name.get(99, 0) # 'Ben'

1.7 数据截取.truncate

df.truncate()可以对DataFrame和Series进行截取，可以将索引传入before和after参数，将这个区间以外的数据剔除。

df.truncate(before=2, after=4)

jack the monkey

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录