爬虫爬取多页内容

出生啦（倒计时一小时就会出现）

已于 2023-09-20 09:47:06 修改

阅读量1.4k

点赞数 3

文章标签：爬虫 python

于 2023-09-04 16:22:19 首次发布

本文链接：https://blog.csdn.net/weixin_45789608/article/details/132671594

版权

右键选择检查或者直接按F12来到控制台

点击左上角的箭头或者快捷键ctrl+shift+c，查看详细信息

根据本站文章进行修改并注释：

彼岸图网图片爬取

另一篇参考文章，没有分页，而且读取会报错：

OSError: [Errno 22] Invalid argument: '彼岸图网图片获取/彼岸原创|哆啦a梦|电脑分区8K壁纸.jpg'

Python爬虫之入门保姆级教程，学不会我去你家刷厕所

| 这个字符我没有想到办法禁止转义，如果需要的话，可能要根据本文代码进行修改，作者也没有来我家刷厕所

import re
import requests
import parsel
import os

# user-agent	用来模拟浏览器对网站进行访问，避免被网站监测出非法访问
# Referer       图片所在网址
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.106 Safari/537.36',
    'Referer': 'http://pic.netbian.com/e/search/result/?searchid=1224'
}

# 定义保存路径
path = "E:\\5k壁纸\\"  # 自定义位置
if not os.path.exists(path):
    os.mkdir(path)  # 如果不存在，自动创建


def spider():
    # 循环读取每一页
    for i in range(0, 564):
        # Request URL 发送请求的网站地址，也就是图片所在的网址
        url = 'http://pic.netbian.com/e/search/result/index.php?page={}&searchid=1224'.format(i)
        # 读取图片
        response = requests.get(url, headers=headers)
        # print(response.text)
        html = parsel.Selector(response.text)
        img_urls = html.xpath("//div[@class='slist']/ul/li/a/img/@src").getall()  # 获取图片链接
        names = html.xpath("//div[@class='slist']/ul/li/a/img/@alt").getall()  # 获取图片名字

        for name, img_url in zip(names, img_urls):
            # 读取名字中连续的汉字，返回一个列表，如['夜晚','雨天','街道']
            name = re.findall('[\u4e00-\u9fa5]{1,10}', name)
            # 将列表内容用-连接， 如 '夜晚-雨天-街道'
            name = '-'.join(name) + '.png'
            # 判断名字中是否含有’女‘字
            if '女' in name:
                print(name)  # 输出图片名字
                # print(type(name))
                img_url = "http://pic.netbian.com/" + img_url  # 图片链接
                print(img_url)  # 输出图片链接
            else:
                break  # 不含’女‘字就退出
            # 通过requests连接到图片
            content = requests.get(img_url, headers=headers).content
            with open(path + name, mode='wb') as fp:
                # 写入文件
                fp.write(content)


if __name__ == '__main__':
    spider()

爬取效果展示：

爬到一个不得了的内容

图为仙女星

出生啦（倒计时一小时就会出现）

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
爬虫爬取多页内容

OSError: [Errno 22] Invalid argument: '彼岸图网图片获取/彼岸原创|哆啦a梦|电脑分区8K壁纸.jpg'| 这个字符我没有想到办法禁止转义，如果需要的话，可能要根据本文代码进行修改，作者也没有来我家刷厕所。爬到一个不得了的内容。
复制链接

扫一扫