如何用python爬取猫眼电影热榜前100

使用python爬虫获取猫眼热榜top100

需先安装 python 的 requests 库

windows 系统可在命令行中使用 pip 下载,下载命令为 pip install requests

先导入 python 库

import re

import json// 在新版的 python 中自带 json,如没有则需自行下载,下载命令为 pip install json

import time

import requests

form requests.exceptions import RequestException

—————–正文 —————————————————------------------------------------------------------

// 定义获取首页的函数
def get_one_page(url):
    try:
        // 这里的 headers 的获取方法自行百度,这里就不多赘述了
        headers = {
            
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36 Edg/121.0.0.0'
        }
        
        response = requests.get(url,headers=headers)
        // 这里判断网页返回值,若为 200 则网页正常打开    
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        return None

这段代码使用 requests 库发送一个 GET 请求到指定的 URL,并返回响应的文本内容。如果请求失败,函数会捕捉 RequestException 异常并返回 None。

// 使用正则表达式从 HEML 文本中提取电影信息
def parse_one_page(html):
"""
    打开源码发现每个热门电影的信息都在 <dd></dd > 之间,据此写出获取电影名称、主演、排名等信息的正则表达式,若不懂正则表达式建议先去学习

"""
    pattern = re.compile(
        '<dd>.*?board-index.*?>(.+?)</i>.*?data-src="(.*?)".*?name"><a.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>',re.S
    )
    items = re.findall(pattern,html)
    for item in items:
"""

使用yield 让返回的数据更加顺眼

"""
        yield {
            'index' : item[0],
            'image' : item[1],
            'title' : item[2].strip(),
            'actor' : item[3].strip()[3:],
            'time' : item[4].strip()[5:],
            'score' : item[5] + item[6]
        }

这段代码使用正则表达式获取电影具体信息,并调用下方的 write_to_file 函数写出为 txt 文件

// 将结果输出为 txt 文件的函数
def write_to_file(content):
    print('789')
    with open('result.txt','a',encoding='utf-8') as f:
        f.write(json.dumps(content,ensure_ascii=False)+'\n')

// 定义 main 函数
def main(offset):
    url = 'http://maoyan.com/board/4?offset='+str(offset))// 打开猫眼 top100 可发现每 10 个热榜网址末尾数字递增 10
    html = get_one_page(url)
    for item in parse_one_page(html):
        print(item)
        write_to_file(item)

主函数构造 url 然后使用各个函数达成爬虫效果

if __name__ == '__main__':
    for i in range(10):
        main(offset=i * 10)
        time.sleep(1)

以下是输出的 txt 效果

  • 9
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

玛卡巴卡的大推车

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值