爬取bilibili相册的图片

最新推荐文章于 2024-03-11 02:11:07 发布

大贱仙

最新推荐文章于 2024-03-11 02:11:07 发布

阅读量978

点赞数 1

分类专栏：爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_44584490/article/details/113725731

版权

本文是新手小白的爬虫练习，目标是https://h.bilibili.com/p网站上的相册图片。通过分析网页API获取嵌套字典数据，实现图片的爬取。

摘要由CSDN通过智能技术生成

文章目录

前言
正文
- 1.代码
- 2.最后结果

前言

新手小白，找个简单的网站练练手，目标锁定在https://h.bilibili.com/p这个网站，主要是因为有漂亮的小姐姐。

在这里插入图片描述

正文

刚开始直接对https://h.bilibili.com/p这个网址返回的源代码进行解析，结果爬取到的结果与开发者选项中看到的不一样，然后在network选项卡中发现有api链接，返回的信息是一个很大的字典，然后爬取的重点就变成了分析这个嵌套了好几层的字典。。。
在这里插入图片描述

1.代码

代码如下：

import requests
from urllib.parse import urlencode

import os
import time

param = 'cos'

def get_page(url, page):
    """一个函数，两个功能，取决于page"""
    headers = {
   
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36'
                      ' (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36'
    }
    r = requests.get(url=url, headers=headers)

    if r.status_code == 200:

        #将返回的信息转换为字典
        r = r.json()

        #分析无限套娃的列表字典，提取出一页的doc_id
        if page == 'home':
            print("开始采集doc_id...")
            doc_ids = [