python3 抓取网页自有图片

抓包这种事情,要先了解html的dom结果,再去分享如何正则拿到你想要的数据数组,这一步懂了之后才可以执行下面的操作,分享页面元素这事,本文就不再探讨了,想了解如何学习html的,请看博客下,从零学习html的专栏。
抓包程序如下:

import urllib.request
import re
import time

url = 'http://image.baidu.com'
req = urllib.request.Request(url, headers={
    'Connection': 'Keep-Alive',
    'Accept': 'text/html, application/xhtml+xml, */*',
    'Accept-Language': 'en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3',
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko'
})


def get_html():
    page = urllib.request.urlopen(req)
    _html = page.read()
    print(_html.decode('utf-8'))
    return _html


def get_img(_html):
    reg = 'src="([^ >]+\.(?:jpeg|jpg))"'
    img_re = re.compile(reg)
    _html = _html.decode('utf-8')
    img_list = re.findall(img_re, _html)
    _time = time.time()
    x = 0
    for img_url in img_list:
        #随机生成文件名称
        _time = _time + x
        #保存文件到指定文件夹
        urllib.request.urlretrieve(img_url, '/Users/jinx/Downloads/img/%s.jpg' % _time)
        x += 1
    return x


html = get_html()
print(get_img(html))

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值