第一次使用爬虫爬取网站内容

初试爬虫

第一次写爬虫也是第一次记录博客
此次跟着腾讯课堂某教育平台的老师第一次真正的写了一次爬虫,爬取内容是某热门手游的全皮肤,代码付下:

"""
-*- coding:UTF-8 -*-
网站:https://pvp.qq.com
"""

# 导入第三方库
import requests
import os

# 王者网址
King_url = 'https://pvp.qq.com/web201605/js/herolist.json'

# 获取json文件信息
response = requests.get(King_url).json()

# 根据英雄皮肤链接 分析并下载
save_dir = "./data" # 下载位置 PS:个人自定义文件夹

if not os.path.exists(save_dir):
    os.mkdir(save_dir)
# split 返回一个下表从0开始的一维数组
for i in range(len(response)):
    skin_names = response[i]['skin_name'].split('|')
    for cnt in range(len(skin_names)):
        hero_number = response[i]['ename'] # ename表示英雄序号
        hero_name = response[i]['cname'] # cname表示英雄名称
        skin_name = skin_names[cnt] # 皮肤名称

        save_file_name = save_dir + str(hero_number) + '_' + hero_name + '_' + skin_name +'.jpg'
        skin_url = 'https://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/{}/{}-bigskin-{}.jpg'.format(hero_number, hero_name, str(cnt+1))
        # 获取图片的位数据(二进制)
        response_skin_content = requests.get(skin_url).content

        # 保存图片
        with open('./data2/'+save_file_name,'wb') as f: # PS:个人自定义文件夹
            f.write(response_skin_content)

代码中还有一个小问题没有更改,但是不影响正常使用,如果找到还望指正

经过本人测试爬取到的数据,经过加密及反爬处理无法显示

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值