【Web Scraping】一个小 demo

import requests
from bs4 import BeautifulSoup

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/110.0.1587.63"
}
count = 0
for start_num in range(0, 250, 25):
    response = requests.get(f"https://XXXXXX.com/top250?start={start_num}", headers=headers)
    html = response.text
    soup = BeautifulSoup(html, "html.parser")
    all_titles = soup.findAll("span", attrs={"class": "title"})
    for title in all_titles:
        title_string = title.string
        if "/" not in title_string:
            print(title_string)
            count = count + 1

print("\n")
if count == 250:
    print("恭喜你全部爬取成功啦!")

导入 requests 模块,用于向网页发送请求并获取响应。

导入 BeautifulSoup 模块,用于解析 HTML 文档。

headers = {...} 定义一个字典类型的变量 headers,用于存储请求头信息。请求头信息中包含了 User-Agent 字段,用于模拟浏览器发送请求。

定义变量 count,用于计算爬取到的电影数量。

for 循环,每次循环爬取一页电影数据。start_num 表示当前页的起始电影编号,范围是0到250,步长为25,即每页有25部电影。

requests.get():发送请求,获取当前页的HTML 文档。

html = response.text:获取响应的 HTML 文本内容,并将其存储在变量 html 中。

soup = BeautifulSoup(html, "html.parser") 使用 BeautifulSoup 解析 HTML 文档,并将结果存储在变量soup 中。

使用 findAll 方法查找所有包含电影名称的 HTML 元素。这里查找所有 class 属性为 “title” 的 <span> 元素,也就是电影名称所在的元素。

如果电影名称不包含 “/” 符号,则打印电影名称。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

沉淀体育生

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值