python 实现网站图片抓取小爬虫

初学python,自己实现的一个抓取网站图片的小爬虫。

import re
import urllib.request

def getResouce(url):
    source = urllib.request.urlopen(url).read()
    return source
#从源代码中匹配正则表达式,提取url
def getimg(source):
    #正则表达式
    reg = r'src="(.*?\.jpg)" width'
    #生成正则表达式对象
    regcompile = re.compile(reg)
    #匹配正则表达式,获取url 主要网页的编码方式 utf-8 、gb2312等
    #urls = regcompile.findall(source.decode('gb2312'))
    urls = regcompile.findall(source.decode('utf-8'))
    return urls

def download(urls):
    num = input("picture编号:(a-)")
    number =1
    for url in urls[1:]:
        #下载数据,并写入文件,利用urlretrieve
        urllib.request.urlretrieve(url,'E:/picture/litter_picture/%s%s.jpg'% (num,number))
        number +=1
def downloadbyurllib(url):
    #获取源代码
    source = getResouce(url)
    #获取urls
    urls = getimg(source)
    #下载数据
    download(urls)
    print("finish the download!")
if __name__ == '__main__':
    downloadbyurllib("http://www.kutoo8.com/pc/8.html")
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值