day5-r数据挖掘

本文介绍了如何在R中进行数据挖掘,重点讲解了使用RCurl包进行文件下载,包括获取文件名及循环下载,以及XML包的运用,详细探讨了xmlParse函数、getNodeSet函数在解析HTML文件中的应用。
摘要由CSDN通过智能技术生成
数据收集(爬取等)——> 数据处理 ——> 数据可视化

RCurl包、 XML包:

安装

#安装RCurl,要加引号
install.packages('RCurl')

一、使用RCurl包

1、获取文件名

#1.加载包
library(RCurl)

#2.定义变量,保存url地址
url <- 'http://rfunction.com/code/1202/'

#3.获取网页所有内容的源代码,返回值是字符串类型
html <- getURL(url)

#4.截取文件名字(需求),使用分割函数 strsplit(a-b-c,'-')  
#判断是否是向量,要保证是向量才能使用分割函数
is.vector(temp)  

#将列表转化成向量型
unlist(temp)    
temp <- strsplit(temp,'')

#5、对列表中的每个元素进行处理,返回每个元素中的第一个值;
#格式如下:lapply(列表,function(x){x[1]})
#function(x){x[1]} 回调函数,里面的x指的是列表中的每一个元素
filenames <- lapply(temp,function(x){x[1]})

#7.将filenames转化成向量格式
filenames <- unlist(filenames)

#8.将filenames中的第一个和第一个值和第二个值过滤掉
filenames <- filenames[-c[1,2]]

2、使用循环下

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值