selenium爬百度图片

本文介绍了如何利用selenium爬取百度图片。由于百度图片的图片URL不在源代码中,作者通过学习selenium,实现了进入图片详情页获取URL并使用requests下载图片,每下载完一页,自动点击下一页继续爬取,直到下载了5000张图片。
摘要由CSDN通过智能技术生成

一开始学习爬虫的时候就想爬一下百度图片,但是怎么也爬不成功。学习了几天才知道,百度图片库中的图片也不是放在源代码里面的,用requests去直接去请求是拿不到的。最近几天学习了一下selenium,也趁着今天我的IP又被某网址封了,我也没有代理可以用,就拿百度图片来练一下,了却一下心愿。
在这里插入图片描述
用selenium来爬百度图片就比较简单了,直接进入要爬取类型的图片的第一张详情页,获取源代码,找到图片的url后用request模块中的urlretrieve函数下载到本地。下载完成后找到下一页点击按钮的节点,并进行点击。再重复以上步骤。

具体代码如下:


from selenium import webdriver
from lxml import etree
from urllib import request
import time

class Baidu_pic(object):
    def __init__(self):
        self.driver = webdriver.Chrome()
        self.url = "https://image.baidu.com/search/detail?ct=" \
                   "503316480&z=0&ipn=d&word=PS%E7%B4%A0%E6%9D%90&step" \
                   "_word=&hs=0&pn=0&spn=0&di=21230&pi=0&rn=1
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值