前言
这篇文章将爬取豆瓣电影为例来深入爬虫数据,有些网页通过请求的html代码不能直接拿到数据,本文用Ajax来进行分析,学习Ajax的请求方式。
一、Ajax的get请求方法:
思路:
- 抓请求接口(URL 、请求方式)
- 获取豆瓣电影的第一页数据,并且保存起来(URL、UA请求头)
- 请求对象的定制
- 获取响应的数据
- 数据下载到本地(写入文件,如果json数据就要以json方式进行保存下来)
# get请求
# 获取豆瓣电影的第一页的数据 并且保存起来
import urllib.request
url = 'https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&start=0&limit=20'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'
}
# (1) 请求对象的定制
request = urllib.request.Request(url=url,headers=headers)