ggplot画图指南3

最新推荐文章于 2023-06-08 19:02:19 发布

牛魔牛魔大酬宾

最新推荐文章于 2023-06-08 19:02:19 发布

阅读量83

点赞数

文章标签： echarts

本文链接：https://blog.csdn.net/wuhutaakeofffff/article/details/131097859

版权

将 flights 和 airlines 进行连接

在 R 语言中可以使用 dplyr 包中的 left_join 函数将 flights 和 airlines 数据框按照 carrier 列进行连接。代码如下：

library(dplyr)

flights_airlines <- flights %>%
  left_join(airlines, by = "carrier")

这里使用了管道操作符 %>%，将 flights 数据框作为第一个参数传递给 left_join 函数。by 参数用于指定要连接的列名。

选取以 “Inc.” 结尾的观测值

使用 dplyr 包中的 filter 函数选取符合条件的观测值，并将结果保存到新的数据框中。代码如下：

flights_airlines_inc <- flights_airlines %>%
  filter(grepl("Inc\\.$", name))

这里使用了正则表达式 grepl("Inc\\.$", name) 来匹配以 “Inc.” 结尾的字符串。注意需要使用双反斜杠转义字符来表示 “.”。

计算元音字母比重和对应的组

先定义一个函数 prop_vowels 用于计算字符串中元音字母的比重：

prop_vowels <- function(x) {
  vowels <- c("a", "e", "i", "o", "u", "A", "E", "I", "O", "U")
  num_vowels <- sum(str_count(x, paste0(vowels, collapse = "")))
  num_chars <- nchar(x)
  prop_vowels <- num_vowels / num_chars * 100
  return(prop_vowels)
}

然后使用 mutate 函数将新的变量 prop_vowels 添加到数据框中：

flights_airlines_inc_prop <- flights_airlines_inc %>%
  mutate(prop_vowels = prop_vowels(name),
         vowel_gr = ifelse(prop_vowels >= 45, 1, 2))

这里使用了 ifelse 函数来根据条件判断生成新的变量 vowel_gr。

计算每组里到达目的地机场的次数以及前 7 的机场

使用 group_by 和 summarize 函数来分组并统计到达目的地机场的次数，并用 slice_max 函数将每组前 7 的机场都显示出来。代码如下：

flights_airlines_inc_prop_vowel_gr <- flights_airlines_inc_prop %>%
  group_by(vowel_gr) %>%
  summarize(n = n(),
            top_7_dest = paste(head(sort(table(dest), decreasing = TRUE), 7), collapse = ", ")) %>%
  slice_max(order_by = n)

这里使用了 table 函数和 head 函数来选取每组中前 7 个到达目的地机场最多的机场，并使用 slice_max 函数来按照 n 变量排序并选取每组中的最大值。

完整代码如下：

library(dplyr)
library(stringr)

flights_airlines <- flights %>%
  left_join(airlines, by = "carrier")

flights_airlines_inc <- flights_airlines %>%
  filter(grepl("Inc\\.$", name))

prop_vowels <- function(x) {
  vowels <- c("a", "e", "i", "o", "u", "A", "E", "I", "O", "U")
  num_vowels <- sum(str_count(x, paste0(vowels, collapse = "")))
  num_chars <- nchar(x)
  prop_vowels <- num_vowels / num_chars * 100
  return(prop_vowels)
}

flights_airlines_inc_prop <- flights_airlines_inc %>%
  mutate(prop_vowels = prop_vowels(name),
         vowel_gr = ifelse(prop_vowels >= 45, 1, 2))

flights_airlines_inc_prop_vowel_gr <- flights_airlines_inc_prop %>%
  group_by(vowel_gr) %>%
  summarize(n = n(),
            top_7_dest = paste(head(sort(table(dest), decreasing = TRUE), 7), collapse = ", ")) %>%
  slice_max(order_by = n)

注意需要先安装并加载 dplyr 包和 stringr 包。

牛魔牛魔大酬宾

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
ggplot画图指南3

函数将 flights 和 airlines 数据框按照 carrier 列进行连接。来匹配以 “Inc.” 结尾的字符串。注意需要使用双反斜杠转义字符来表示 “.”。函数选取符合条件的观测值，并将结果保存到新的数据框中。函数来选取每组中前 7 个到达目的地机场最多的机场，并使用。函数来根据条件判断生成新的变量 vowel_gr。函数将每组前 7 的机场都显示出来。函数来按照 n 变量排序并选取每组中的最大值。函数来分组并统计到达目的地机场的次数，并用。这里使用了管道操作符。这里使用了正则表达式。
复制链接

扫一扫