目录
一、前言
温馨提示:刚开始学习爬虫的小白可以看看我发的前三部教程,循序渐进的来,不至于看得有些懵
在观看Scrape Center网站中找到spa3,上一篇文章有法
spa3练习简介:电影数据网站,无反爬,数据通过 Ajax 加载,无页码翻页,下拉至底部刷新,适合 Ajax 分析和动态页面渲染爬取。
OK,let's go,上代码
import json
import requests
import pandas as pd
headers = {
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36"
}
# 创建四个空列表,用来存放所需数据
title,type,score,cover, = [],[],[],[]
for i in range(10):
url = 'https://spa3.scrape.center/api/movie/?limit=10&offset='+str(i*10)
index = requests.get(url,headers=headers)
# print(index) # 200
dict_data = json.loads(index.text)
# print(dict_data)
# print(dict_data['results'][0])
for x in range(10):
title.append(dict_data['results'][x]['name']+" "+dict_data['results'][x]['alias'])
type.append(dict_data['results'][x]['categories'])
score.append(dict_data['results'][x]['score'])
cover.append(dict_data['results'][x]['cover'])
# print(type)
data = {
'电影名':title,
'类型':type,
'评分':score,
'图片':cover
}
# print(data)
# 将data数据通过自动生成一个表格
work = pd.DataFrame(data)
print(work)
# 文件保存路径
file_path = pd.ExcelWriter("work.xlsx")
work.to_excel(file_pa