专注系列化、高质量的R语言教程
使用各种数据分析方法之前往往需要先将原始数据加工成特定的格式,即数据预处理。执行的操作比如有筛选样本和变量、定义变量类型、处理缺失值等。在这个过程中,tidyverse
系列工具包的相关函数使用的十分频繁。本讲主要介绍数据导入函数和dplyr
包中的一些重要函数。
本讲为上部分,目录如下:
1 数据导入
1.1 csv格式
1.2 Excel格式
2 数据筛选、转换等操作
3 数据框拼接、连接操作
1 数据导入
1.1 csv格式
read.table()
和read.csv()
是R基础包utils
中的函数(基础包会自动加载,相关函数可以直接调用),二者均可读取csv格式文件。
read.table(file, header = FALSE, sep = "")
read.csv(file, header = TRUE, sep = ",")
两个函数的主要参数均为前三个参数,其中第一个参数file为文件地址,第二个参数header表示是否以首行为标题,第三个参数sep表示分列符;
但两个函数参数的默认值不同,
read.table()
默认没有标题、读入数据不分列,而read.csv
默认以首行为标题、以逗号,
分列。因为csv本身是以逗号为分隔的文件,因此使用read.csv
读取csv文件代码会更简洁,而使用read.table()
需要将sep
参数设置成逗号,
。
read.table("E:/mtcars.csv", header = TRUE, sep = ",")
read.csv("E:/mtcars.csv")
read.table("E:/mtcars.csv", sep = ",")
read.csv("E:/mtcars.csv", header = FALSE)
订阅付费合集后可查看下方视频和讲义。