import urllib.request
import re
#获取网页源代码
def getHtml(url):
page=urllib.request.urlopen(url)
html=page.read()
return html
#获取网页内所有图片地址
def getImg(html):
#reg=r'src="([.*\S]*\.jpg)" pic_ext="jpeg"'
reg = r'src="(.*?\.jpg)" size="'#图片的正则表达式
imgre=re.compile(reg)#编译正则表达式
imglist=re.findall(imgre,html)#在html中找到所有符合imgre的图片地址
return imglist
#任意网页的URL地址,获取html
html=getHtml('http://tieba.baidu.com/p/6236544820')
#修改html字符编码
html=html.decode('utf-8')
#获取图片地址
imgList=getImg(html)
#存储图片
imgName=0
for imgPath in imgList:
f=open('/img/%s.jpg'%imgName,'wb')
f.write(urllib.request.urlopen(imgPath).read())
f.close()
imgName+=1
print("正在下载第%s张图片"%imgName)
print("该网站图片已经下载完成")
网络爬虫 Python 下载贴吧中的图片(学习笔记)
最新推荐文章于 2023-01-16 16:30:29 发布