初试爬虫
第一次写爬虫也是第一次记录博客
此次跟着腾讯课堂某教育平台的老师第一次真正的写了一次爬虫,爬取内容是某热门手游的全皮肤,代码付下:
"""
-*- coding:UTF-8 -*-
网站:https://pvp.qq.com
"""
# 导入第三方库
import requests
import os
# 王者网址
King_url = 'https://pvp.qq.com/web201605/js/herolist.json'
# 获取json文件信息
response = requests.get(King_url).json()
# 根据英雄皮肤链接 分析并下载
save_dir = "./data" # 下载位置 PS:个人自定义文件夹
if not os.path.exists(save_dir):
os.mkdir(save_dir)
# split 返回一个下表从0开始的一维数组
for i in range(len(response)):
skin_names = response[i]['skin_name'].split('|')
for cnt in range(len(skin_names)):
hero_number = response[i]['ename'] # ename表示英雄序号
hero_name = response[i]['cname'] # cname表示英雄名称
skin_name = skin_names[cnt] # 皮肤名称
save_file_name = save_dir + str(hero_number) + '_' + hero_name + '_' + skin_name +'.jpg'
skin_url = 'https://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/{}/{}-bigskin-{}.jpg'.format(hero_number, hero_name, str(cnt+1))
# 获取图片的位数据(二进制)
response_skin_content = requests.get(skin_url).content
# 保存图片
with open('./data2/'+save_file_name,'wb') as f: # PS:个人自定义文件夹
f.write(response_skin_content)
代码中还有一个小问题没有更改,但是不影响正常使用,如果找到还望指正
经过本人测试爬取到的数据,经过加密及反爬处理无法显示