爬取bilibili相册的图片

本文是新手小白的爬虫练习,目标是https://h.bilibili.com/p网站上的相册图片。通过分析网页API获取嵌套字典数据,实现图片的爬取。
摘要由CSDN通过智能技术生成


前言

 新手小白,找个简单的网站练练手,目标锁定在https://h.bilibili.com/p这个网站,主要是因为有漂亮的小姐姐。

在这里插入图片描述

正文

 刚开始直接对https://h.bilibili.com/p这个网址返回的源代码进行解析,结果爬取到的结果与开发者选项中看到的不一样,然后在network选项卡中发现有api链接,返回的信息是一个很大的字典,然后爬取的重点就变成了分析这个嵌套了好几层的字典。。。
在这里插入图片描述

1.代码

 代码如下:

import requests
from urllib.parse import urlencode

import os
import time

param = 'cos'

def get_page(url, page):
    """一个函数,两个功能,取决于page"""
    headers = {
   
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36'
                      ' (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36'
    }
    r = requests.get(url=url, headers=headers)

    if r.status_code == 200:

        #将返回的信息转换为字典
        r = r.json()

        #分析无限套娃的列表字典,提取出一页的doc_id
        if page == 'home':
            print("开始采集doc_id...")
            doc_ids = [
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值