Windows+Python3+Selenium爬取知乎图片
python2和python3我都有用一些,不过为什么选择python3我就不多说了,以后python3肯定用的越来越多,这是趋势。本文使用python3+Selenium库来模拟浏览器进行知乎图片的抓取。
前期准备
首先,你要有python3的环境,这里我推荐使用Anaconda,因为里边集成了许多python开发环境,还会预装一些python科学计算的库,不管是Spyder还是Jupyter notebook用起来都是很方便的。这里给出两个可能用到的链接:
另外,本次知乎图片抓取还要用到Selenium库,这个库一般是没有预装的,所以要自己安装。如果你已经装过Anaconda了,这里我介绍一下安装方法,其他环境读者请自行配置。
首先,打开Anaconda Prompt,这是Anaconda的root环境下的控制台,如果你有在Anaconda中自己建立环境,只需要“activate+环境名”激活相应环境,然后再进行安装,退出环境时直接输入“deactivate”即可。
安装Selenium库的代码如下:
>>> pip install -U selenium
看到successfully信息字样说明安装成功,可以输入相应代码进行测试,查看Selenium库是否安装成功。
大家可以自己查阅Selenium库的使用方法。里边有说到,为了使用Selenium库,我们需要安装浏览器的driver。
大家不要觉得麻烦,很简单的。我用的浏览器是chrome,所以进入相应的链接进行下载ChromeDriver。下载解压之后就是一个exe文件,把它放到浏览器的安装目录中即可。
由于我们利用Selenium库的时候会调用到ChromeDriver,所以大家把ChromeDriver所在的路径放到电脑的“系统变量 –>Path”里去,这样就可以随意使用了,设置好之后我们就可以开始“50行python代码抓取知乎图片”的操作了。
抓取开始
Talk is cheap. Show me the code. —— Linus Torvalds
Import Libraries
# 调用Selenium库
from selenium import webdriver
import time
# 这两个可是经典的Python爬虫库
import urllib.request
from bs4 import BeautifulSoup
# 用于HTML页面的解析
import html.parser
确定程序主体框架
def main():