Python3网络爬虫
whe0302
我是whe
展开
-
1-开发环境配置
既然要用Python 3开发爬虫,那么第一步一定是安装Python 3。这里会介绍Windows、Linux和Mac三大平台下的安装过程。1. 相关链接 官方网站:http://python.org 下载地址:https://www.python.org/downloads 第三方库:https://pypi.python.org/pypi 官方文档:htt...转载 2018-11-13 10:22:13 · 196 阅读 · 0 评论 -
3.3-pyquery的安装
pyquery同样是一个强大的网页解析工具,它提供了和jQuery类似的语法来解析HTML文档,支持CSS选择器,使用非常方便。本节中,我们就来了解一下它的安装方式。1. 相关链接 GitHub:https://github.com/gawel/pyquery PyPI:https://pypi.python.org/pypi/pyquery 官方文档:http://...转载 2018-11-14 18:01:47 · 148 阅读 · 0 评论 -
3.2-Beautiful Soup的安装
Beautiful Soup是Python的一个HTML或XML的解析库,我们可以用它来方便地从网页中提取数据。它拥有强大的API和多样的解析方式,本节就来了解下它的安装方式。1. 相关链接 官方文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc 中文文档:https://www.crummy.com/softwar...转载 2018-11-14 18:01:10 · 390 阅读 · 0 评论 -
3.1-lxml的安装
lxml是Python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高。本节中,我们了解一下lxml的安装方式,这主要从Windows、Linux和Mac三大平台来介绍。1. 相关链接 官方网站:http://lxml.de GitHub:https://github.com/lxml/lxml PyPI:https://pypi....转载 2018-11-14 17:58:58 · 742 阅读 · 0 评论 -
2.6-aiohttp的安装
之前介绍的Requests库是一个阻塞式HTTP请求库,当我们发出一个请求后,程序会一直等待服务器响应,直到得到响应后,程序才会进行下一步处理。其实,这个过程比较耗费资源。如果程序可以在这个等待过程中做一些其他的事情,如进行请求的调度、响应的处理等,那么爬取效率一定会大大提高。aiohttp就是这样一个提供异步Web服务的库,从Python 3.5版本开始,Python中加入了async/aw...转载 2018-11-14 17:44:44 · 211 阅读 · 0 评论 -
2.5-PhantomJS的安装
PhantomJS是一个无界面的、可脚本编程的WebKit浏览器引擎,它原生支持多种Web标准:DOM操作、CSS选择器、JSON、Canvas以及SVG。Selenium支持PhantomJS,这样在运行的时候就不会再弹出一个浏览器了。而且PhantomJS的运行效率也很高,还支持各种参数配置,使用非常方便。下面我们就来了解一下PhantomJS的安装过程。1. 相关链接 官方网站...转载 2018-11-14 11:24:12 · 345 阅读 · 0 评论 -
2.4-GeckoDriver的安装
上一节中,我们了解了ChromeDriver的配置方法,配置完成之后便可以用Selenium驱动Chrome浏览器来做相应网页的抓取。那么对于Firefox来说,也可以使用同样的方式完成Selenium的对接,这时需要安装另一个驱动GeckoDriver。本节中,我们来介绍一下GeckoDriver的安装过程。1. 相关链接 GitHub:https://github.com/m...转载 2018-11-13 11:25:39 · 1618 阅读 · 0 评论 -
2.3-ChromeDriver的安装
前面我们成功安装好了Selenium库,但是它是一个自动化测试工具,需要浏览器来配合使用,本节中我们就介绍一下Chrome浏览器及ChromeDriver驱动的配置。首先,下载Chrome浏览器,方法有很多,在此不再赘述。随后安装ChromeDriver。因为只有安装ChromeDriver,才能驱动Chrome浏览器完成相应的操作。下面我们来介绍下怎样安装ChromeDriver。1...转载 2018-11-13 10:45:52 · 435 阅读 · 0 评论 -
2.2-Selenium的安装
Selenium是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下拉等操作。对于一些JavaScript渲染的页面来说,这种抓取方式非常有效。下面我们来看看Selenium的安装过程。1. 相关链接 官方网站:http://www.seleniumhq.org GitHub:https://github.com/SeleniumHQ/selenium/tr...转载 2018-11-13 10:25:46 · 143 阅读 · 0 评论 -
2.1-请求库的安装
由于Requests属于第三方库,也就是Python默认不会自带这个库,所以需要我们手动安装。下面我们首先看一下它的安装过程。1.相关链接 GitHub:https://github.com/requests/requests PyPI:https://pypi.python.org/pypi/requests 官方文档:http://www.python-reque...转载 2018-11-13 10:25:05 · 175 阅读 · 0 评论 -
3.4-tesserocr的安装
在爬虫过程中,难免会遇到各种各样的验证码,而大多数验证码还是图形验证码,这时候我们可以直接用OCR来识别。1. OCROCR,即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说,它们都是一些不规则的字符,这些字符确实是由字符稍加扭曲变换得到的内容。例如,对于如图1-22和图1-23所示...转载 2018-11-15 11:21:22 · 249 阅读 · 0 评论