python爬取豆瓣正在上映的电影

本文介绍如何使用Python3.7.1、requests、pyquery和pandas库爬取豆瓣正在上映的电影数据。通过设置请求头避免被识别为程序,解析网页找到电影信息所在的div-ul-li结构,提取电影名称、评分、时长、地区、导演和演员,并将数据保存为DataFrame。最终处理评分数据,将0分替换为'暂无评分'。
摘要由CSDN通过智能技术生成

爬取的目标网址:

https://movie.douban.com/cinema/nowplaying/zhuhai/

(后面这个珠海是表示的地点)

使用的工具:

Jupyter Notebook(5.4.7),python3.7.1

使用的python库:

requests、pyquery、pandas

要爬取的网站长这个样子:
在这里插入图片描述
先引入库

import requests
from pyquery import PyQuery as pq
import pandas as pd

使用requests库和get函数对网站进行解析,其中的headers是请求头,使得我们的请求更像人为的,不会被浏览器直接判定为程序而不让你访问。

url = "https://movie.douban.com/cinema/nowplaying/zhuhai/"
headers = {
    "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36",
    "referer" : "https://googleads.g.dou
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值