从零开始学Python学习笔记---之--pandas数据框(2)

接着pandas数据框(1)介绍与应用,今天学习如何借助于pandas模块进行数据的预处理,内容包括数据集变量与观测的筛选、变量的重命名、数据类型的变换、排序、重复观测的删除、和数据集的抽样。

一、数据筛选
以iris数据集为例,想从数据集中取出某列(序列对象)或某几列该如何操作?

import pandas as pd
iris = pd.read_csv('iris.csv')
iris.head(4)

在pandas取出一列有两种方法,一种是比较普遍适用的名称索引法,另一种则是点取法。

#取出Species#名称索引法
iris['Species'].head()

#点取法
iris.Species.head()

如果使用点取法取出数据集中的某列,需要注意的是列的名称必须是一个整体,例如stu age或stu.age等格式的变量名就不能使用点取法。

如果你需要取出的不仅仅是一列数据,而是多列,那只能使用名称索引或位置索引了。接下来再来看看如何按照某些条件取出想要的观测行:

一个变量的观测筛选

#取出‘setosa’花种
iris.loc[iris.Species=='setosa',:].head(2)

两个变量的观测筛选

#取出‘setosa’花种且Sepal.Length大于5的观测
iris.loc[(iris.Species=='setosa') &(iris['Sepal.Length']>5),:].head(2)

需要注意的是:多个变量的筛选,可以是或(|)关系、可以是且(&)关系还可以是非(~)关系,一定要用圆括号把条件括起来

两个变量的观测筛选并筛选部分变量<

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值