一、分析url
单击分类信息,跳转到分类电影列表。
这个页面是有多页数据加载的,当用户向下滚动右侧的滚动,加载数据,这个经过分析是ajax加载的数据,需要找到ajax请求的网址。
先找到分类,提取分类的名字和类型编号,然后再爬分类下的电影数据。
二、提取数据的方法
ajax返回的数据是json,response.json()得到的是字典,用字典操作就可以了,当然肯定可以用正则。其实专门操作json的有一个模块叫jsonpath。
三、代码实现
import requests
import re
import csv
type_url = "https://movie.douban.com/chart"
movie_url = "https://movie.douban.com/j/chart/top_list"
headers = {
"user-agent": "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36",
}
def parse_html(url, params={
}):
"""解析url,得到html"""
response = requests.get(url=url, headers=headers, params=params)
return response.content.decode("utf-8")
def parse_json(url, params={