爬虫实例--百度贴吧图片爬取

# 1、获取网页HTML
# 2、分析标签特征,抓取所有图片的url连接
# 3、保存图片
#
import urllib.request
import re
# 获取网页HTML
def get_html(url):
    html=urllib.request.urlopen(url)
    return html.read().decode('utf-8')
# 用正则抓取图片url,compile取的是括号里面的内容呢
def get_img_url(html):
    partten=re.compile('<img class="BDE_Image".*?src="(.*?\.jpg)".*?>')
    img_url=re.findall(partten,html)
    return img_url
# 向服务器请求图片
def get_img(img_url,imgname):
        urllib.request.urlretrieve(img_url,imgname)     
# 保存图片到本地pc机上
def save_img(img_url,path='F:/'):
    count=1
    for i in img_url:
        get_img(i,''.join([path,'{0}.jpg'.format(count)]))
        print('下载完第{0}张图片'.format(count),end='\n')
        count=count+1
# 函数调用
def funcall(url):
    html=get_html(url)
    img_url=get_img_url(html)
    save_img(img_url)
# 主函数
def main():
    url='http://tieba.baidu.com/p/3773006865'
    funcall(url)
if __name__=='__main__':
    main()


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值