本文主要介绍用rvest包对天气后报网的空气数据进行简单的抓取。
具体代码如下:
本文抓取了2013年10月28日至2017年12月31日天气后报网的空气数据。
####################################
# GET THE DATA FROM TIAN-QI-HOU-BAO#
####################################
#USE THE PACKAGES RVEST
library(rvest)
#BULID A FUNCTION
fun <- function(m){
url <- paste0("http://www.tianqihoubao.com/aqi/beijing-",m,".html")
html_session(url)
web<-html(url,encoding="gb2312")
qq <- web %>% html_nodes("td") %>% html_text()
m <- matrix(qq,nrow=10)
p <- t(m)
p <- iconv(p,"utf-8","gbk")
p <- gsub("^\\s+|\\s+$","",p)
p[-1,]
}
#GET THE DATA ABOUT AIR OF BEIJING
#2013
air <- data.frame(fun(201310))
air <- rbind(air,data.frame(fun(201311)))
air <- rbind(air,data.frame(fun(20