# -*- coding:utf-8 -*-
import os
import datetime
import urllib.request
import re
#如果爬取的网站是https协议的,需要在请求时会验证一次SSL证书,全局加上即可
#import ssl
#ssl._create_default_https_context = ssl._create_unverified_context
#根据给定的网址来获取网页详情信息,得到的html就是网页的原代码
def get_html(url):
page = urllib.request.urlopen(url)
html = page.read()
html = html.decode('utf-8',"ignore")
return html
#在网页源代码里,根据网页的特定规则获取到所以的图片地址
def get_img_url(html):
reg = r'src="(.+?.(?:bmp|jpg|png|gif))"'
imgre = re.compile(reg)
imglist = imgre.findall(html)
return imglist
#创建目录,并返回该目录
def make_dir(path):
#去除左右两边的空格
path = path.strip()
#判断该文件是否存在,不存在才创建,存在则跳过
if not os.path.exists(path):
os.makedirs(path)
return path
def save_img(path,imglist):
for img_url in imglist:
filename = path + datetime.datetime.now().strftime('%Y%m%d%H
python3 通过网址下载图片到本地
最新推荐文章于 2024-04-19 22:39:11 发布