爬虫
文章平均质量分 93
爱遛弯的布谷
这个作者很懒,什么都没留下…
展开
-
scrapy模拟浏览器爬取51job(动态渲染页面爬取)
scrapy模拟浏览器爬取51job51job链接网络爬虫时,网页不止有静态页面还有动态页面,动态页面主要由JavaScript动态渲染,网络爬虫经常遇见爬取JavaScript动态渲染的页面。动态渲染页面爬取,就是模拟浏览器的运行方式,可以做到在浏览器中看到是什么内容爬取的源码就是相应的内容,实现了可见即可爬。这个方法在爬虫过程中会打开一个浏览器 加载该网页,自动操作浏览器浏览各个网页,同时也可爬取加载的页面 HTML。用一句简单 而通俗的话说,就是使用浏览器渲染方法将爬取动态网页变成爬取静态网页原创 2021-09-11 12:49:04 · 2257 阅读 · 10 评论 -
scrapy框架 爬取重庆工程学院
目的:爬取重庆工程学院 中的管理学院的学院动态百度搜索重庆工程学院,看到如图所示因为我使用scarpy框架,不懂得可以看看我之前的文章(简单的理了一下步奏)原创 2021-09-06 09:03:52 · 870 阅读 · 1 评论 -
XPath 详讲
xpath简介XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。XPath被开发者用来当作小型查询语言,基于XML的树状结构,用于定位元素节点、属性节点、文本节点,提供在数据结构树中找寻节点的能力。lxml库的安装lxml库是一种执行效率高并且简单易学的第三方网页解析库,是本书推荐读者必须要掌握的网页解析库。lxml库不是Python标准库,需要自行安装。可以在命令行下使用pip命令安装lxml库。pip install lxml在原创 2021-09-02 09:03:17 · 485 阅读 · 0 评论