- 将 flights 和 airlines 进行连接
在 R 语言中可以使用 dplyr
包中的 left_join
函数将 flights 和 airlines 数据框按照 carrier 列进行连接。代码如下:
library(dplyr)
flights_airlines <- flights %>%
left_join(airlines, by = "carrier")
这里使用了管道操作符 %>%
,将 flights 数据框作为第一个参数传递给 left_join
函数。by
参数用于指定要连接的列名。
- 选取以 “Inc.” 结尾的观测值
使用 dplyr
包中的 filter
函数选取符合条件的观测值,并将结果保存到新的数据框中。代码如下:
flights_airlines_inc <- flights_airlines %>%
filter(grepl("Inc\\.$", name))
这里使用了正则表达式 grepl("Inc\\.$", name)
来匹配以 “Inc.” 结尾的字符串。注意需要使用双反斜杠转义字符来表示 “.”。
- 计算元音字母比重和对应的组
先定义一个函数 prop_vowels
用于计算字符串中元音字母的比重:
prop_vowels <- function(x) {
vowels <- c("a", "e", "i", "o", "u", "A", "E", "I", "O", "U")
num_vowels <- sum(str_count(x, paste0(vowels, collapse = "")))
num_chars <- nchar(x)
prop_vowels <- num_vowels / num_chars * 100
return(prop_vowels)
}
然后使用 mutate
函数将新的变量 prop_vowels 添加到数据框中:
flights_airlines_inc_prop <- flights_airlines_inc %>%
mutate(prop_vowels = prop_vowels(name),
vowel_gr = ifelse(prop_vowels >= 45, 1, 2))
这里使用了 ifelse
函数来根据条件判断生成新的变量 vowel_gr。
- 计算每组里到达目的地机场的次数以及前 7 的机场
使用 group_by
和 summarize
函数来分组并统计到达目的地机场的次数,并用 slice_max
函数将每组前 7 的机场都显示出来。代码如下:
flights_airlines_inc_prop_vowel_gr <- flights_airlines_inc_prop %>%
group_by(vowel_gr) %>%
summarize(n = n(),
top_7_dest = paste(head(sort(table(dest), decreasing = TRUE), 7), collapse = ", ")) %>%
slice_max(order_by = n)
这里使用了 table
函数和 head
函数来选取每组中前 7 个到达目的地机场最多的机场,并使用 slice_max
函数来按照 n 变量排序并选取每组中的最大值。
完整代码如下:
library(dplyr)
library(stringr)
flights_airlines <- flights %>%
left_join(airlines, by = "carrier")
flights_airlines_inc <- flights_airlines %>%
filter(grepl("Inc\\.$", name))
prop_vowels <- function(x) {
vowels <- c("a", "e", "i", "o", "u", "A", "E", "I", "O", "U")
num_vowels <- sum(str_count(x, paste0(vowels, collapse = "")))
num_chars <- nchar(x)
prop_vowels <- num_vowels / num_chars * 100
return(prop_vowels)
}
flights_airlines_inc_prop <- flights_airlines_inc %>%
mutate(prop_vowels = prop_vowels(name),
vowel_gr = ifelse(prop_vowels >= 45, 1, 2))
flights_airlines_inc_prop_vowel_gr <- flights_airlines_inc_prop %>%
group_by(vowel_gr) %>%
summarize(n = n(),
top_7_dest = paste(head(sort(table(dest), decreasing = TRUE), 7), collapse = ", ")) %>%
slice_max(order_by = n)
注意需要先安装并加载 dplyr
包和 stringr
包。