个人主页: https://joeyos.github.io
文章目录
linux安装python
sudo yum install -y https://centos7.iuscommunity.org/ius-release.rpm
sudo yum update
sudo yum install -y python35u python35u-libs python35u-devel python35u-pip
测试安装
python3
pip3 -V
请求库安装
爬虫可分为如下步骤:
- 抓取页面
- 分析页面
- 存储数据
用到的第三方库有:request、selenium、aiohttp
request
https://pypi.org/project/request/
打开anaconda prompt
pip3 install request
调用模块
>>> import request
>>> request.REQUEST
{...}
selenium
pip3 install selenium
谷歌浏览器驱动
安装了selenium,这只是个自动化测试工具,需要浏览器来配合使用,接下来介绍Chrome浏览器及其驱动的配置。
- 查看谷歌浏览器的版本号
- 下载相应的ChromeDriver
- 将ChromeDriver放入python的scripts文件夹下
- 测试环境,会弹开一个空白网页
from selenium import webdriver
browser = webdriver.Chrome()
无界面浏览器
Chrome在爬取网页的过程中浏览器可能一直动来动去,可以安装一个无界面浏览器PhantomJS.
PhantomJS是一个无界面的、可脚本编程的webKit浏览器引擎,它原生支持多种web标准:DOM操作,CSS选择器、JSON、Canvas以及SVG.
【也可用headless】
selenium支持PhantomJS,这样在运行的时候就不会再弹出一个浏览器了。而且PhantomJS的运行效率也很高,还支持各种参数匹配,使用方便。
- 下载解压
- 将bin目录里的exe放入anaconda(python)的scripts目录下
- 测试,打印输出https://www.baidu