python爬取豆瓣电影排行榜前250名

最新推荐文章于 2025-03-25 11:35:22 发布

Py.ziMing

最新推荐文章于 2025-03-25 11:35:22 发布

阅读量3.4k

点赞数 6

分类专栏：爬虫文章标签： python 爬虫豆瓣电影

本文链接：https://blog.csdn.net/weixin_44080811/article/details/89960674

版权

爬取豆瓣电影排行榜

选择页面
首先，我们打开豆瓣的电影排行榜的页面。网页链接：双击跳转

2. 页面分析
接下来，我们要在这个页面提取每一部电影的详情节链接，总页码数，每一部电影的短评。
我们先来提取电影详情页的链接。

# 获取豆瓣top250每个页面下的电影豆瓣链接列表
        movies_link_list = html.xpath('//li//div[@class="info"]/div[@class="hd"]/a/@href')

提取导航页的每一部电影的短评。

`# 获取每个页面下的电影的代表影评
        movies_quote_list = html.xpath('//p[@class="quote"]/span[@class="inq"]/text()')`

提取电影排行榜的总页数

`total_page_num = int(html.xpath('string(//span[@class="next"]/preceding-sibling::a[1])'))`

下面，我们提取每一部电影的详细信息。

在这里插入图片描述我们提取的信息包括上图中的电影排名、名称、链接、评分、评价人数以及各个星级的评价人数，还有电影的导演，编剧、主演、类型、制片国家/地区、语言、上映日期、片长、又名和IMDb链接。代码如下：

				# 获取电影排名
                movie_rank = r'电影排名:{}'.format(html.xpath('string(//div[@class="top250"]/span[@class="top250-no"])'))
                # 获取电影名称
                movie_name = r'电影名称:{}'.format(html.xpath('string(//span[@property="v:itemreviewed"])'))
                # 获取电影链接
                movie_link = r'电影链接:{}'.format(movie_link)
                # 获取电影评分

最低0.47元/天解锁文章