前言
前不久,我用rvest包爬取了政府工作报告,通过jiebaR分词,并用wordcloud2进行了词云分析。点击查看 http://blog.csdn.net/wzgl__wh/article/details/72804687
今天,我们来用rvest包爬取猎聘网上的招聘信息。
链接为 https://www.liepin.com/zhaopin/?init=1 。 打开的页面如上图,今天任务要爬取红色区域里面用绿色标记的那些信息,爬取完之后保存下来。
在开始之前,我先简单的介绍一下下面几个函数:
函数 |
作用 |
read_html() |
读取html文档 |
html_nodes() |
获得指定名称的网页元素、节点 |
html_text() |
获得指定名称的网页元素、节点文本 |
html_attrs() |
提取所有的属性名称及其内容 |
html_attr() |
提取指定的属性名称及其内容 |
html_tag() |