1.1简介
可视化需要数据格式完全符合要求,所以对原始数据需要进行一些处理,比如说创建一些新的变量,对变量进行重命名或重新排序。可以使用tidyverse的核心R包dplyr来进行数据转换。
1.1.1 变量类型
可以使用View()命令看到整个数据集。
列名下面有一行3/4个字母的缩写,描述了每个变量的类型:
*int:整数型变量
*dbl:双精度浮点数型变量,或称为实数
*chr:字符向量,或称为字符串
*dttm:日期时间(日期+时间)型变量
*lgl:逻辑型变量,仅包含TRUE和FAUSE的变量
*fctr:因子,R中用其表示具有固定数目的值的分类变量
*date:日期型变量
1.1.2 dplyr基础
将在本章节学习6个dplyr核心函数:
(1)按值筛选行:filter()
(2)对行进行重新排序:arrange()
(3)按名称选取变量:select()
(4)使用现有变量的函数创建新变量:mutate()
(5)将多个值总结为一个摘要统计量:summarize()
(6)改变函数的作用范围,在每个组上分别操作:group()