图片爬虫修改

最新推荐文章于 2022-09-05 22:56:21 发布

小石记_eric

最新推荐文章于 2022-09-05 22:56:21 发布

阅读量158

点赞数

分类专栏：作业文章标签： python

本文链接：https://blog.csdn.net/weixin_45565595/article/details/108573656

版权

作业专栏收录该内容

29 篇文章 0 订阅

订阅专栏

本文介绍了对Python图片爬虫的两项改进：1. 使用urllib.request.urlretrieve方法下载图片；2. 适应性地处理以http和https开头的图片URL。

摘要由CSDN通过智能技术生成

改进1：使用了urllib.request.urlretrieve方法

改进2：发现图片网址有的以http开头，有的以https开头，修改了网址变量b的表达方法

#爬虫实战
import requests,urllib.request
from bs4 import BeautifulSoup
import os
import datetime,time
import random

#获取当前年月日并创建以年月日命名的文件夹
today=datetime.date.today()
if not os.path.exists(f'{today}'):
    os.makedirs(f'{today}') #如果没有这个path则直接创建

#爬虫部分
#头文件
header={"User-Agent":"Mozila/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36"} #利用header模拟是从谷歌浏览器发出请求

name=1
for i in range(40,46):
    url='https://www.gamersky.com/ent/202009/1320641_{}.shtml'.format(i)
    r=requests.get(url,headers=header)
    r.encoding = r.apparent_encoding#解决中文乱码问题
    html=r.text
    soup=BeautifulSoup(html,'lxml')#lxml是解析器
    list=soup.find_all('a')  #图片地址在Mid2L_con类的P标签下的a标签里
    for li in list:
        address=li.get('href')
        if '.jpg' in str(address):
##            print(address) #已经获得URL,接下来是保存图片
            if 'https' in address:
                b=address[53:]
            else:
                b=address[52:]
##            print(b)
            urllib.request.urlretrieve(b, f'./{today}/{str(name)}.png')
##            pic=requests.get(b,headers=header)
##            f=open(f'./{today}/{str(name)}.png','ab')
##            f.write(pic.content)
##            f.close()
            time.sleep(random.randint(1,5))
            name +=1

小石记_eric

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
图片爬虫修改

改进1：使用了urllib.request.urlretrieve方法改进2：发现图片网址有的以http开头，有的以https开头，修改了网址变量b的表达方法#爬虫实战import requests,urllib.requestfrom bs4 import BeautifulSoupimport osimport datetime,timeimport random#获取当前年月日并创建以年月日命名的文件夹today=datetime.date.today()if not os
复制链接

扫一扫