多种方式爬取猫眼电影TOP100

最新推荐文章于 2024-05-14 14:07:38 发布

Juno的学习日记

最新推荐文章于 2024-05-14 14:07:38 发布

阅读量1.7k

点赞数 1

分类专栏：爬虫文章标签： python requests xpath pyquery 爬虫

本文链接：https://blog.csdn.net/weixin_45075241/article/details/90341346

版权

最近开始学习爬虫，用的是崔庆才老师的教程，其中第一个实战就是爬取猫眼电影的TOP100，使用的是requests+re。但我觉得re有点复杂，于是探索了一下用其他解析库来爬取。

爬取思路：
首先我要爬取的网站为：https://maoyan.com/board/4?offset=，当翻到第二时网址变成了https://maoyan.com/board/4?offset=10，第三页网址时变成了https://maoyan.com/board/4?offset=20，所以要爬取的十页的话只要写一个for循环，让第一页后面逐一加10就行了。

网页的构造：
网页的源代码如下图，可以看到一部电影的信息是存放在一个dd节点中，所以只要把所有的dd节点全部爬取下来，然后循环遍历就行了。要提取的信息中电影名在p节点下的a节点中，主演在class为star的p节点中，上映时间类似于主演，评分这里需要注意的是它在两个不同的i节点中。
在这里插入图片描述
本文使用的IDE是pycharm或者jupyter。

1、requests+re爬取
直接贴上崔庆才老师的代码了，感觉网上一搜到处都是这一段：

import json
import requests
from requests.exceptions import RequestException
import re
import time
def get_one_page(url):
    try:
        headers = {
            'User-Agent' : 'Mozilla/5.0 (Macintosh; Inter Mac OS X 10_13_3) Applewebkit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.

最低0.47元/天解锁文章

Juno的学习日记

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
多种方式爬取猫眼电影TOP100

最近开始学习爬虫，用的是崔庆才老师的教程，其中第一个实战就是爬取猫眼电影的TOP100，使用的是requests+re。但我觉得re有点复杂，于是探索了一下用其他解析库来爬取。爬取思路：首先我要爬取的网站为：https://maoyan.com/board/4?offset=，当翻到第二时网址变成了https://maoyan.com/board/4?offset=10，第三页网址时变成了ht...
复制链接

扫一扫