ggplot画图指南3

  1. 将 flights 和 airlines 进行连接

在 R 语言中可以使用 dplyr 包中的 left_join 函数将 flights 和 airlines 数据框按照 carrier 列进行连接。代码如下:

library(dplyr)

flights_airlines <- flights %>%
  left_join(airlines, by = "carrier")

这里使用了管道操作符 %>%,将 flights 数据框作为第一个参数传递给 left_join 函数。by 参数用于指定要连接的列名。

  1. 选取以 “Inc.” 结尾的观测值

使用 dplyr 包中的 filter 函数选取符合条件的观测值,并将结果保存到新的数据框中。代码如下:

flights_airlines_inc <- flights_airlines %>%
  filter(grepl("Inc\\.$", name))

这里使用了正则表达式 grepl("Inc\\.$", name) 来匹配以 “Inc.” 结尾的字符串。注意需要使用双反斜杠转义字符来表示 “.”。

  1. 计算元音字母比重和对应的组

先定义一个函数 prop_vowels 用于计算字符串中元音字母的比重:

prop_vowels <- function(x) {
  vowels <- c("a", "e", "i", "o", "u", "A", "E", "I", "O", "U")
  num_vowels <- sum(str_count(x, paste0(vowels, collapse = "")))
  num_chars <- nchar(x)
  prop_vowels <- num_vowels / num_chars * 100
  return(prop_vowels)
}

然后使用 mutate 函数将新的变量 prop_vowels 添加到数据框中:

flights_airlines_inc_prop <- flights_airlines_inc %>%
  mutate(prop_vowels = prop_vowels(name),
         vowel_gr = ifelse(prop_vowels >= 45, 1, 2))

这里使用了 ifelse 函数来根据条件判断生成新的变量 vowel_gr。

  1. 计算每组里到达目的地机场的次数以及前 7 的机场

使用 group_by 和 summarize 函数来分组并统计到达目的地机场的次数,并用 slice_max 函数将每组前 7 的机场都显示出来。代码如下:

flights_airlines_inc_prop_vowel_gr <- flights_airlines_inc_prop %>%
  group_by(vowel_gr) %>%
  summarize(n = n(),
            top_7_dest = paste(head(sort(table(dest), decreasing = TRUE), 7), collapse = ", ")) %>%
  slice_max(order_by = n)

这里使用了 table 函数和 head 函数来选取每组中前 7 个到达目的地机场最多的机场,并使用 slice_max 函数来按照 n 变量排序并选取每组中的最大值。

完整代码如下:

library(dplyr)
library(stringr)

flights_airlines <- flights %>%
  left_join(airlines, by = "carrier")

flights_airlines_inc <- flights_airlines %>%
  filter(grepl("Inc\\.$", name))

prop_vowels <- function(x) {
  vowels <- c("a", "e", "i", "o", "u", "A", "E", "I", "O", "U")
  num_vowels <- sum(str_count(x, paste0(vowels, collapse = "")))
  num_chars <- nchar(x)
  prop_vowels <- num_vowels / num_chars * 100
  return(prop_vowels)
}

flights_airlines_inc_prop <- flights_airlines_inc %>%
  mutate(prop_vowels = prop_vowels(name),
         vowel_gr = ifelse(prop_vowels >= 45, 1, 2))

flights_airlines_inc_prop_vowel_gr <- flights_airlines_inc_prop %>%
  group_by(vowel_gr) %>%
  summarize(n = n(),
            top_7_dest = paste(head(sort(table(dest), decreasing = TRUE), 7), collapse = ", ")) %>%
  slice_max(order_by = n)

注意需要先安装并加载 dplyr 包和 stringr 包。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值