爬取的目标网址:
https://movie.douban.com/cinema/nowplaying/zhuhai/
(后面这个珠海是表示的地点)
使用的工具:
Jupyter Notebook(5.4.7),python3.7.1
使用的python库:
requests、pyquery、pandas
要爬取的网站长这个样子:
先引入库
import requests
from pyquery import PyQuery as pq
import pandas as pd
使用requests库和get函数对网站进行解析,其中的headers是请求头,使得我们的请求更像人为的,不会被浏览器直接判定为程序而不让你访问。
url = "https://movie.douban.com/cinema/nowplaying/zhuhai/"
headers = {
"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36",
"referer" : "https://googleads.g.dou