R数据科学第三章读书笔记和习题

这篇文章只是记录个人理解,有时间会写第五章EDA(探索性分析部分)

概述

dplyr包在r语言中是用来整理数据集,以便数据更容易处理。
dplyr中有5个核心函数,分别是
按值筛选观测 filter()
对行重新排序 arrange()
按名称选取变量 select()
创建新变量 mutate()
将多个值总结为一个摘要统计量 summarize()

还有个改变作用范围的函数group_by()

一、filter()按值筛选

1、按指定条件筛选

library(dplyr)
library(nycflights13)
df <- nycflights13::flights
#筛选1月的航班信息
filter(df, month == 1)

加入逻辑运算符

#筛选1月或2月的航班信息
filter(df, month == 1|month == 2)

使用 %in%

#筛选1月或2月的航班信息
filter(df, month %in% c(1, 2))

2、处理缺失值

NA代表未知的值,当数据处理遇到NA,往往结果也会是NA

#提取month变量中缺失值
filter(df, is.na(month))
#提取month变量中非缺失的数据
filter(df, !is.na(month))

3.2.4 练习题

(1) 找出满足以下条件的所有航班。
a. 到达时间延误 2 小时或更多的航班。

library(tidyverse)
library(nycflights13)
nycflights13::flights
filter(flights,  arr_delay >= 120)

b. 飞往休斯顿(IAH 机场或 HOU 机场)的航班。

filter(flights,  dest %in% c('IAH', 'HOU'))

c. 由联合航空United、美利坚航空American或三角洲航空Delta运营的航班。

filter(flights,  carrier  %in% c('UA',  'AA', 'DL'))

d. 夏季(7 月、 8 月和 9 月)出发的航班。

filter(df, month %in% c(7, 8, 9))

e. 到达时间延误超过 2 小时,但出发时间没有延误的航班。

filter(flights, arr_delay >= 120 & dep_delay <= 0)

f. 延误至少 1 小时,但飞行过程弥补回 30 分钟的航班。

filter(flights, dep_delay >= 60 & dep_delay - arr_delay > 30)

g. 出发时间在午夜和早上 6 点之间(包括 0 点和 6 点)的航班。
根据帮助文档

  • 16
    点赞
  • 70
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
清华大学出品的R语言全套课程PPT学习课件,非常适合大学生和职场人士学习,也适合老鸟复习回顾,完全可用于自学入门,很经典好用的PPT课件哦~ (1)清华大学精品数据科学R语言全套课程PPT课件含习题(26页) 第1章 R语言绪论(1) (2)清华大学精品数据科学R语言全套课程PPT课件含习题(27页) 第2章 R语言入门 (3)清华大学精品数据科学R语言全套课程PPT课件含习题(53页) 第3章 数据模型 (4)清华大学精品数据科学R语言全套课程PPT课件含习题(15页) 第4章 数据准备 (5)清华大学精品数据科学R语言全套课程PPT课件含习题(66页) 第5章 数据可视化 (6)清华大学精品数据科学R语言全套课程PPT课件含习题(35页) 第6章 数据探索 (7)清华大学精品数据科学R语言全套课程PPT课件含习题(38页) 第7章 数据变换 (8)清华大学精品数据科学R语言全套课程PPT课件含习题(20页) 第8章 高级编程 (9)清华大学精品数据科学R语言全套课程PPT课件含习题(63页) 第9章 数据建模 (10)清华大学精品数据科学R语言全套课程PPT课件含习题(25页) 第10章 数据评估 (11)清华大学精品数据科学R语言全套课程PPT课件含习题(21页) 第11章 影响大学平均录取分数线因素分析 (12)清华大学精品数据科学R语言全套课程PPT课件含习题(18页) 第12章 收视率分析 (13)清华大学精品数据科学R语言全套课程PPT课件含习题(18页) 第13章 RHadoop (14)清华大学精品数据科学R语言全套课程PPT课件含习题(25页) 第14章 Rspark

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值