selenium爬百度图片

最新推荐文章于 2024-08-14 20:52:57 发布

Juno的学习日记

最新推荐文章于 2024-08-14 20:52:57 发布

阅读量973

点赞数

分类专栏：爬虫文章标签： selenium python 爬虫

本文链接：https://blog.csdn.net/weixin_45075241/article/details/90648207

版权

本文介绍了如何利用selenium爬取百度图片。由于百度图片的图片URL不在源代码中，作者通过学习selenium，实现了进入图片详情页获取URL并使用requests下载图片，每下载完一页，自动点击下一页继续爬取，直到下载了5000张图片。

摘要由CSDN通过智能技术生成

一开始学习爬虫的时候就想爬一下百度图片，但是怎么也爬不成功。学习了几天才知道，百度图片库中的图片也不是放在源代码里面的，用requests去直接去请求是拿不到的。最近几天学习了一下selenium，也趁着今天我的IP又被某网址封了，我也没有代理可以用，就拿百度图片来练一下，了却一下心愿。
在这里插入图片描述
用selenium来爬百度图片就比较简单了，直接进入要爬取类型的图片的第一张详情页，获取源代码，找到图片的url后用request模块中的urlretrieve函数下载到本地。下载完成后找到下一页点击按钮的节点，并进行点击。再重复以上步骤。

具体代码如下：


from selenium import webdriver
from lxml import etree
from urllib import request
import time

class Baidu_pic(object):
    def __init__(self):
        self.driver = webdriver.Chrome()
        self.url = "https://image.baidu.com/search/detail?ct=" \
                   "503316480&z=0&ipn=d&word=PS%E7%B4%A0%E6%9D%90&step" \
                   "_word=&hs=0&pn=0&spn=0&di=21230&pi=0&rn=1