R语言学习日记 2019年4月4日
一、结构化数据的读入
#可以用 read.table()从带有分隔符的文件中导入数据
mydataframe-read.table(file,options)
file文件名,options是如何处理数据的选项。
options的选项:
1.header=T文件的第一行包含变量名
2.sep分开数值的分隔符,默认值为sep=" "
3.col.names指定一个或多个行标记符
4.colClasses指定包含变量名的字符向量
5.na.strings表示缺失值的字符向量
6.skip读取数据前选择跳过的行数
7.stringsAsFactors字符向量是否转化为因子
#从txt文本中读入数据
movietxt<-read.table("E:/R学习资料/data/movie.txt",header = T,fileEncoding = "UTF-8")
#从CSV中读入数据,设置分隔符否则数据显示混乱
tes = read.table("电影数据.csv", header = T, sep = ",", fileEncoding = "UTF-8")
#用read.csv函数读取
movie_csv = read.csv("电影数据.csv", fileEncoding = "UTF-8")
#从xls,xlsx中读入数据
install.packages("readxl")
library("readxl")
movie_excel = data.frame(read_excel("E:/R学习资料/data/电影数据.xlsx", col_names = T))
二、非结构化数据的读入-----txt文本
#读入简单的文本数据
novel = read.csv("novel.csv", fileEncoding = "UTF-8")
#用read.table读入文本数据,sep = "\t"读取使用制表符来分割行内数据的文件
test = read.table("weibo.txt", sep = "\t")
#空字段需要fill参数来填满
test = read.table("weibo.txt", sep = "\t", fill = T)
#quote=" "禁止所有引用符号
weibo = read.table("weibo.txt", sep = "\t", fill = T, quote = "", fileEncoding = "UTF-8")
#stringsAsFactors将文本转化为字符,strip.white将字符中的前后空格去掉
weibo = read.table("weibo.txt", sep = "\t", fill = T, quote = "", strip.white = T, stringsAsFactors = F, fileEncoding = "UTF-8")
#查看第1行至第十行的数据
weibo[1:10, ]
三、数据的输入
1.用R内置的文本编辑器输入数据
第一步创建一个空的数据框,设置变量名和变量的类型;第二步调用本文编辑器输入数据;
#age=numeric(0)创建一个指定模式但不包含实际数据的变量;edit()在一个副本上进行操作
mydata<-data.frame(age=numeric(0),gender=character(0),weight=numeric(0))
mydata<-edit(mydata)
#mydata<-edit(mydata)还有一种简洁写法
fix(mydata)
2.在程序中嵌入数据集
age gender weight
25 m 166
30 f 115
18 f 120
"
mydata<-read.table(header = T,text = mydatatxt)