Python爬虫入门（#8）——爬取B站新番时间表

Explosion_M

于 2021-04-15 18:32:38 发布

阅读量731

点赞数

分类专栏： python爬虫文章标签： python

本文链接：https://blog.csdn.net/weixin_44077128/article/details/115730244

版权

python爬虫专栏收录该内容

10 篇文章 20 订阅

订阅专栏

本文介绍如何使用Python爬取B站的新番时间表。首先，通过分析B站番剧页面的URL发现数据是通过ajax传输的。接着，定位到请求URL：https://bangumi.bilibili.com/web_api/timeline_global，获取JSON数据。然后，解析JSON，提取出新番时间表，并打印出每天的新番信息，特别是当天及其前后三天的更新。最后，展示了提取信息的代码实现。

摘要由CSDN通过智能技术生成

文章目录

- - 爬取B站新番时间表

爬取B站新番时间表

本次使用bs4来进行解析实践

获取url

打开B站番剧页面，其url为
https://www.bilibili.com/anime/timeline/
但我们爬取该页面发现里面没有任何内容
在这里插入图片描述
这说明数据使用ajax进行传输
我们打开控制台，选定XHR包，然后点击新番索引表标签页

一个叫做timeline_global的包中保存了全部的时间表数据
而其Request URL为https://bangumi.bilibili.com/web_api/timeline_global

惊现bangumi

而通过其响应头可以看出返回的数据为json类型
在这里插入图片描述
由此我们就可以编写获取数据的代码

爬取json数据

import requests

url = "https://bangumi.bilibili.com/web_api/timeline_global/"

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
                  "Chrome/89.0.4389.114 Safari/537.36",

}

response = requests.get(url=url, headers=headers)
data_json = response.json()
print(data_json)

解析json数据

在这里插入图片描述

通过打印的json数据可以看出来
新番时间表的内容存储在result字段中，而且是一个列表类型，所以我们先打印一下这个列表

for item in data_json["result"]:
	print(item)

在这里插入图片描述
每天的新番数据一目了然，如果没有存在空数据，甚至有is_today字段来指示是否是今天

提取信息

我们主要提取当天前后±3天的新番更新信息

info_list = []
count = 0

for day_dic in data_json["result"]:
    if day_dic["is_today"] == 1:
        break
    count += 1

result_list = data_json["result"]
for i in range(count - 3, count + 4):
    info_list.append(result_list[i])

for item in info_list:
    print(item)

由此就得到了当天前后±3天的番剧更新信息

Explosion_M

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫入门（#8）——爬取B站新番时间表

文章目录爬取B站新番时间表获取url爬取json数据解析json数据提取信息爬取B站新番时间表本次使用bs4来进行解析实践获取url打开B站番剧页面，其url为https://www.bilibili.com/anime/timeline/但我们爬取该页面发现里面没有任何内容这说明数据使用ajax进行传输我们打开控制台，选定XHR包，然后点击新番索引表标签页一个叫做timeline_global的包中保存了全部的时间表数据而其Request URL为https://bangumi.b
复制链接

扫一扫

专栏目录