爬虫 爬取多页内容

右键选择检查或者直接按F12来到控制台

点击左上角的箭头或者快捷键ctrl+shift+c,查看详细信息

根据本站文章进行修改并注释:

彼岸图网图片爬取

另一篇参考文章,没有分页,而且读取会报错:

OSError: [Errno 22] Invalid argument: '彼岸图网图片获取/彼岸原创|哆啦a梦|电脑分区8K壁纸.jpg'

Python爬虫之入门保姆级教程,学不会我去你家刷厕所

| 这个字符我没有想到办法禁止转义,如果需要的话,可能要根据本文代码进行修改,作者也没有来我家刷厕所 

import re
import requests
import parsel
import os

# user-agent	用来模拟浏览器对网站进行访问,避免被网站监测出非法访问
# Referer       图片所在网址
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.106 Safari/537.36',
    'Referer': 'http://pic.netbian.com/e/search/result/?searchid=1224'
}

# 定义保存路径
path = "E:\\5k壁纸\\"  # 自定义位置
if not os.path.exists(path):
    os.mkdir(path)  # 如果不存在,自动创建


def spider():
    # 循环读取每一页
    for i in range(0, 564):
        # Request URL 发送请求的网站地址,也就是图片所在的网址
        url = 'http://pic.netbian.com/e/search/result/index.php?page={}&searchid=1224'.format(i)
        # 读取图片
        response = requests.get(url, headers=headers)
        # print(response.text)
        html = parsel.Selector(response.text)
        img_urls = html.xpath("//div[@class='slist']/ul/li/a/img/@src").getall()  # 获取图片链接
        names = html.xpath("//div[@class='slist']/ul/li/a/img/@alt").getall()  # 获取图片名字

        for name, img_url in zip(names, img_urls):
            # 读取名字中连续的汉字,返回一个列表,如['夜晚','雨天','街道']
            name = re.findall('[\u4e00-\u9fa5]{1,10}', name)
            # 将列表内容用-连接, 如 '夜晚-雨天-街道'
            name = '-'.join(name) + '.png'
            # 判断名字中是否含有’女‘字
            if '女' in name:
                print(name)  # 输出图片名字
                # print(type(name))
                img_url = "http://pic.netbian.com/" + img_url  # 图片链接
                print(img_url)  # 输出图片链接
            else:
                break  # 不含’女‘字就退出
            # 通过requests连接到图片
            content = requests.get(img_url, headers=headers).content
            with open(path + name, mode='wb') as fp:
                # 写入文件
                fp.write(content)


if __name__ == '__main__':
    spider()

爬取效果展示:

爬到一个不得了的内容 

 

图为仙女星 

  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值