# 1、获取网页HTML
# 2、分析标签特征,抓取所有图片的url连接
# 3、保存图片
#
import urllib.request
import re
# 获取网页HTML
def get_html(url):
html=urllib.request.urlopen(url)
return html.read().decode('utf-8')
# 用正则抓取图片url,compile取的是括号里面的内容呢
def get_img_url(html):
partten=re.compile('<img class="BDE_Image".*?src="(.*?\.jpg)".*?>')
img_url=re.findall(partten,html)
return img_url
# 向服务器请求图片
def get_img(img_url,imgname):
urllib.request.urlretrieve(img_url,imgname)
# 保存图片到本地pc机上
def save_img(img_url,path='F:/'):
count=1
for i in img_url:
get_img(i,''.join([path,'{0}.jpg'.format(count)]))
print('下载完第{0}张图片'.format(count),end='\n')
count=count+1
# 函数调用
def funcall(url):
html=get_html(url)
img_url=get_img_url(html)
save_img(img_url)
# 主函数
def main():
url='http://tieba.baidu.com/p/3773006865'
funcall(url)
if __name__=='__main__':
main()
爬虫实例--百度贴吧图片爬取
最新推荐文章于 2021-02-24 17:03:13 发布