如何用python爬取猫眼电影热榜前100

最新推荐文章于 2024-05-14 14:07:38 发布

玛卡巴卡的大推车

最新推荐文章于 2024-05-14 14:07:38 发布

阅读量728

点赞数 9

文章标签： python 开发语言

本文链接：https://blog.csdn.net/weixin_56546651/article/details/136128446

版权

使用python爬虫获取猫眼热榜top100

需先安装 python 的 requests 库

windows 系统可在命令行中使用 pip 下载，下载命令为 pip install requests

先导入 python 库

import re

import json// 在新版的 python 中自带 json，如没有则需自行下载，下载命令为 pip install json

import time

import requests

form requests.exceptions import RequestException

—————–正文 —————————————————------------------------------------------------------

// 定义获取首页的函数
def get_one_page(url):
    try:
        // 这里的 headers 的获取方法自行百度，这里就不多赘述了
        headers = {
            
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36 Edg/121.0.0.0'
        }
        
        response = requests.get(url,headers=headers)
        // 这里判断网页返回值，若为 200 则网页正常打开    
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        return None

这段代码使用 requests 库发送一个 GET 请求到指定的 URL，并返回响应的文本内容。如果请求失败，函数会捕捉 RequestException 异常并返回 None。

// 使用正则表达式从 HEML 文本中提取电影信息
def parse_one_page(html):
"""
    打开源码发现每个热门电影的信息都在 <dd></dd > 之间，据此写出获取电影名称、主演、排名等信息的正则表达式，若不懂正则表达式建议先去学习

"""
    pattern = re.compile(
        '<dd>.*?board-index.*?>(.+?)</i>.*?data-src="(.*?)".*?name"><a.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>',re.S
    )
    items = re.findall(pattern,html)
    for item in items:
"""

使用yield 让返回的数据更加顺眼

"""
        yield {
            'index' : item[0],
            'image' : item[1],
            'title' : item[2].strip(),
            'actor' : item[3].strip()[3:],
            'time' : item[4].strip()[5:],
            'score' : item[5] + item[6]
        }

这段代码使用正则表达式获取电影具体信息，并调用下方的 write_to_file 函数写出为 txt 文件

// 将结果输出为 txt 文件的函数
def write_to_file(content):
    print('789')
    with open('result.txt','a',encoding='utf-8') as f:
        f.write(json.dumps(content,ensure_ascii=False)+'\n')

// 定义 main 函数
def main(offset):
    url = 'http://maoyan.com/board/4?offset='+str(offset))// 打开猫眼 top100 可发现每 10 个热榜网址末尾数字递增 10
    html = get_one_page(url)
    for item in parse_one_page(html):
        print(item)
        write_to_file(item)

主函数构造 url 然后使用各个函数达成爬虫效果

if __name__ == '__main__':
    for i in range(10):
        main(offset=i * 10)
        time.sleep(1)

以下是输出的 txt 效果

玛卡巴卡的大推车

关注

9
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
1
评论
如何用python爬取猫眼电影热榜前100

这段代码使用 requests 库发送一个 GET 请求到指定的 URL，并返回响应的文本内容。—————–正文 —————————————————------------------------------------------------------这段代码使用正则表达式获取电影具体信息，并调用下方的 write_to_file 函数写出为 txt 文件。windows 系统可在命令行中使用 pip 下载，下载命令为 pip install requests。以下是输出的 txt 效果。
复制链接

扫一扫