爬虫实例--百度贴吧图片爬取

最新推荐文章于 2021-02-24 17:03:13 发布

真你假我

最新推荐文章于 2021-02-24 17:03:13 发布

阅读量301

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/zhangzejia/article/details/79672312

版权

python 专栏收录该内容

26 篇文章 1 订阅

订阅专栏

# 1、获取网页HTML
# 2、分析标签特征，抓取所有图片的url连接
# 3、保存图片
#
import urllib.request
import re
# 获取网页HTML
def get_html(url):
    html=urllib.request.urlopen(url)
    return html.read().decode('utf-8')
# 用正则抓取图片url,compile取的是括号里面的内容呢
def get_img_url(html):
    partten=re.compile('<img class="BDE_Image".*?src="(.*?\.jpg)".*?>')
    img_url=re.findall(partten,html)
    return img_url
# 向服务器请求图片
def get_img(img_url,imgname):
        urllib.request.urlretrieve(img_url,imgname)     
# 保存图片到本地pc机上
def save_img(img_url,path='F:/'):
    count=1
    for i in img_url:
        get_img(i,''.join([path,'{0}.jpg'.format(count)]))
        print('下载完第{0}张图片'.format(count),end='\n')
        count=count+1
# 函数调用
def funcall(url):
    html=get_html(url)
    img_url=get_img_url(html)
    save_img(img_url)
# 主函数
def main():
    url='http://tieba.baidu.com/p/3773006865'
    funcall(url)
if __name__=='__main__':
    main()