第一次使用爬虫爬取网站内容

最新推荐文章于 2024-02-04 10:15:00 发布

Zukin

最新推荐文章于 2024-02-04 10:15:00 发布

阅读量260

点赞数

文章标签： python

本文链接：https://blog.csdn.net/yjj_Ace/article/details/107363770

版权

初试爬虫

第一次写爬虫也是第一次记录博客
此次跟着腾讯课堂某教育平台的老师第一次真正的写了一次爬虫，爬取内容是某热门手游的全皮肤，代码付下：

"""
-*- coding:UTF-8 -*-
网站：https://pvp.qq.com
"""

# 导入第三方库
import requests
import os

# 王者网址
King_url = 'https://pvp.qq.com/web201605/js/herolist.json'

# 获取json文件信息
response = requests.get(King_url).json()

# 根据英雄皮肤链接 分析并下载
save_dir = "./data" # 下载位置 PS:个人自定义文件夹

if not os.path.exists(save_dir):
    os.mkdir(save_dir)
# split 返回一个下表从0开始的一维数组
for i in range(len(response)):
    skin_names = response[i]['skin_name'].split('|')
    for cnt in range(len(skin_names)):
        hero_number = response[i]['ename'] # ename表示英雄序号
        hero_name = response[i]['cname'] # cname表示英雄名称
        skin_name = skin_names[cnt] # 皮肤名称

        save_file_name = save_dir + str(hero_number) + '_' + hero_name + '_' + skin_name +'.jpg'
        skin_url = 'https://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/{}/{}-bigskin-{}.jpg'.format(hero_number, hero_name, str(cnt+1))
        # 获取图片的位数据（二进制）
        response_skin_content = requests.get(skin_url).content

        # 保存图片
        with open('./data2/'+save_file_name,'wb') as f: # PS:个人自定义文件夹
            f.write(response_skin_content)

代码中还有一个小问题没有更改，但是不影响正常使用，如果找到还望指正

经过本人测试爬取到的数据，经过加密及反爬处理无法显示

Zukin

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
第一次使用爬虫爬取网站内容

初试爬虫第一次写爬虫也是第一次记录博客此次跟着腾讯课堂某教育平台的老师第一次真正的写了一次爬虫，爬取内容是某热门手游的全皮肤，代码付下："""-*- coding:UTF-8 -*-网站：https://pvp.qq.com"""# 导入第三方库import requestsimport os# 王者网址King_url = 'https://pvp.qq.com/web201605/js/herolist.json'# 获取json文件信息response = reques
复制链接

扫一扫