Windows+Python3+Selenium爬取知乎图片

Windows+Python3+Selenium爬取知乎图片

python2和python3我都有用一些,不过为什么选择python3我就不多说了,以后python3肯定用的越来越多,这是趋势。本文使用python3+Selenium库来模拟浏览器进行知乎图片的抓取。


前期准备

首先,你要有python3的环境,这里我推荐使用Anaconda,因为里边集成了许多python开发环境,还会预装一些python科学计算的库,不管是Spyder还是Jupyter notebook用起来都是很方便的。这里给出两个可能用到的链接:

另外,本次知乎图片抓取还要用到Selenium库,这个库一般是没有预装的,所以要自己安装。如果你已经装过Anaconda了,这里我介绍一下安装方法,其他环境读者请自行配置。

首先,打开Anaconda Prompt,这是Anaconda的root环境下的控制台,如果你有在Anaconda中自己建立环境,只需要“activate+环境名”激活相应环境,然后再进行安装,退出环境时直接输入“deactivate”即可。

Anaconda Prompt

安装Selenium库的代码如下:

>>> pip install -U selenium

看到successfully信息字样说明安装成功,可以输入相应代码进行测试,查看Selenium库是否安装成功。

安装Selenium库

大家可以自己查阅Selenium库的使用方法。里边有说到,为了使用Selenium库,我们需要安装浏览器的driver。

Selenium库依赖的driver

大家不要觉得麻烦,很简单的。我用的浏览器是chrome,所以进入相应的链接进行下载ChromeDriver。下载解压之后就是一个exe文件,把它放到浏览器的安装目录中即可。

ChromeDriver

由于我们利用Selenium库的时候会调用到ChromeDriver,所以大家把ChromeDriver所在的路径放到电脑的“系统变量 –>Path”里去,这样就可以随意使用了,设置好之后我们就可以开始“50行python代码抓取知乎图片”的操作了。

ChromeDriver路径设置


抓取开始

Talk is cheap. Show me the code. —— Linus Torvalds

Import Libraries

# 调用Selenium库
from selenium import webdriver
import time

# 这两个可是经典的Python爬虫库
import urllib.request
from bs4 import BeautifulSoup

# 用于HTML页面的解析
import html.parser

确定程序主体框架

def main():

    
  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值