爬取豆瓣电影TOP100

最新推荐文章于 2024-07-01 17:12:36 发布

Keep self

最新推荐文章于 2024-07-01 17:12:36 发布

阅读量2.1k

点赞数 3

文章标签：爬虫 python 正则表达式

本文链接：https://blog.csdn.net/weixin_43789781/article/details/120367503

版权

本文介绍如何使用Python爬虫抓取豆瓣电影排行榜前100的电影信息，包括排名、图片、电影名、演员、时间和评分。通过分析网页源代码，利用正则表达式提取关键数据，并通过offset进行分页爬取。遇到反爬虫策略时，需手动验证后重新运行代码。

摘要由CSDN通过智能技术生成

爬虫

首先我们在网站中打开我们要爬的网站
“http://maoyan.com/board/4”
这就是豆瓣高分电影前100的榜单.

然后我们点击f12，再刷新一次，就可以看到网页的基本信息了。
这时候我们来看一下第一部‘我不是药神中的代码信息。’
在这里插入图片描述
一个dd节点为一个电影的全部信息。
我们用正则表达式的方法去分析上面的代码，首先是class为board-index的排名信息。
我们用正则表达式应该是这么去写

<dd>.*?board-index.*?>(.*?)</i>

那我们接着分析第二部分的图片，我们看图片的节点一共有两点：两个img节点。
我们发现第二个img节点属性为data-src为图片链接，所以我们就分析这部分。
我们用正则表达式应该是这么去写

.*?data.src="(.*?)"

以此类推我们接着分析剩下所有的信息。
第三部分为电影名，电影名在p节点的class=name下面。
我们用正则表达式应该这么写

.*?name".*?a.*?>(.*?)</a>

那么接下来我们就写一个完整的信息：分别记录了排名，照片，名字，演员，时间，评分。

<dd>.*?board-index.*?>(.*?)</i>.*?data-src="(.*?)".*?name.*?a.*?>(.*?)</a>.*?star".*?>(.*?)</p>.*?releasetime.*?>(.*?)</p>.*?integer.*?>(.

最低0.47元/天解锁文章

Keep self

关注

3
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫