python爬取豆瓣正在上映的电影

最新推荐文章于 2024-08-14 11:44:10 发布

Juno的学习日记

最新推荐文章于 2024-08-14 11:44:10 发布

阅读量1.3k

点赞数 1

分类专栏：爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_45075241/article/details/90340361

版权

本文介绍如何使用Python3.7.1、requests、pyquery和pandas库爬取豆瓣正在上映的电影数据。通过设置请求头避免被识别为程序，解析网页找到电影信息所在的div-ul-li结构，提取电影名称、评分、时长、地区、导演和演员，并将数据保存为DataFrame。最终处理评分数据，将0分替换为'暂无评分'。

摘要由CSDN通过智能技术生成

爬取的目标网址：

https://movie.douban.com/cinema/nowplaying/zhuhai/

（后面这个珠海是表示的地点）

使用的工具：

Jupyter Notebook（5.4.7），python3.7.1

使用的python库：

requests、pyquery、pandas

要爬取的网站长这个样子：
在这里插入图片描述
先引入库

import requests
from pyquery import PyQuery as pq
import pandas as pd

使用requests库和get函数对网站进行解析，其中的headers是请求头，使得我们的请求更像人为的，不会被浏览器直接判定为程序而不让你访问。

url = "https://movie.douban.com/cinema/nowplaying/zhuhai/"
headers = {
    "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36",
    "referer" : "https://googleads.g.dou