[496]urllib.request.urlretrieve()函数

参考python document

描述

urllib.request.urlretrieve(url, filename=None, reporthook=None, data=None)

函数说明

将URL表示的网络对象复制到本地文件。如果URL指向本地文件,则对象将不会被复制,除非提供文件名。返回一个元组()(filename,header),其中filename是可以找到对象的本地文件名,header是urlopen()返回的对象的info()方法(用于远程对象)。

第二个参数(如果存在)指定要复制到的文件位置(如果没有,该位置将是一个生成名称的tempfile。

第三个参数,如果存在,则是一个回调函数,它将在建立网络连接时调用一次,并且在此后每个块读取后调用一次。这个回调函数将传递三个参数;到目前为止传输的块计数,以字节为单位的块大小,以及文件的总大小。第三个参数可能是-1,在旧的FTP服务器上,它不返回文件大小以响应检索请求。

参数说明

  • url:外部或者本地url
  • filename:指定了保存到本地的路径(如果未指定该参数,urllib会生成一个临时文件来保存数据)
  • reporthook:是一个回调函数,当连接上服务器、以及相应的数据块传输完毕的时候会触发该回调。我们可以利用这个回调函数来显示当前的下载进度。
  • data:指post到服务器的数据。该方法返回一个包含两个元素的元组(filename, headers),filename表示保存到本地的路径,header表示服务器的响应头。
# encoding=utf-8
import os,sys,urllib.request,time


DATA_URL = 'http://www.python.org/ftp/python/2.7.5/Python-2.7.5.tar.bz2'
filename = DATA_URL.split('/')[-1]

def _progress(block_num, block_size, total_size):
    '''回调函数
       @block_num: 已经下载的数据块
       @block_size: 数据块的大小
       @total_size: 远程文件的大小
    '''
    sys.stdout.write('\r>> Downloading %s %.1f%%' % (filename,
                     float(block_num * block_size) / float(total_size) * 100.0))
    sys.stdout.flush()#刷新输出

local_filename, headers= urllib.request.urlretrieve(DATA_URL, filename, _progress)
print('\n')
print(local_filename, headers)
# html = open(local_filename)
# html.close()

输出

Downloading Python-2.7.5.tar.bz2 100.0%

Python-2.7.5.tar.bz2 Server: nginx
Content-Type: application/octet-stream
Last-Modified: Sun, 12 May 2013 03:46:19 GMT
ETag: "518f108b-b95bfe"
X-Clacks-Overhead: GNU Terry Pratchett
Via: 1.1 varnish
Content-Length: 12147710
Accept-Ranges: bytes
Date: Thu, 17 Jan 2019 02:35:27 GMT
Via: 1.1 varnish
Age: 10961451
Connection: close
X-Served-By: cache-iad2148-IAD, cache-tyo19922-TYO
X-Cache: HIT, HIT
X-Cache-Hits: 0, 4
X-Timer: S1547692527.414428,VS0,VE0
Strict-Transport-Security: max-age=63072000; includeSubDomains

例子中的sys.stdout.write和print差不多是输出的意思,sys.stdout.flush()函数的作用是刷新输出

for i in range(5):
    # print(i)
    print(i,end='')
    sys.stdout.flush()
    time.sleep(1)

这个程序本意是每隔一秒输出一个数字,但是如果把这句话sys.stdout.flush()注释的话,你就只能等到程序执行完毕,屏幕上会一次性输出0,1,2,3,4。

如果你加上sys.stdout.flush(),刷新stdout,这样就能每隔一秒输出一个数字了。

可以用在网络程序中多线程程序,多个线程后台运行,同时要能在屏幕上实时看到输出信息。


urllib.request加代理用法

# encoding=utf-8
import random,urllib.request,base64


url = 'http://www.chinamoney.com.cn/dqs/cm-s-notice-query/fileDownLoad.do?contentId=1098470&priority=0&mode=save'

#方法一:
def set_proxy1():
    ips = ['106.75.59.192:3100',]
    ip =random.choice(ips)
    proxy_auth_handler = urllib.request.ProxyHandler({'http':'http://' + ip})
    proxy_auth = urllib.request.ProxyBasicAuthHandler()
    proxy_auth.add_password(None, None, 'user','passwd')
    opener = urllib.request.build_opener(proxy_auth,proxy_auth_handler)
    opener.addheaders = [
        ('User-agent', 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'),
        ('Accept','textml,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8'),
        ('Accept-Encoding', 'gzip, deflate'),
        ('Accept-Language', 'zh-CN,zh;q=0.9'),
        ('Connection', 'keep-alive'),
        # ('Proxy-authorization',b'Basic ' + base64.b64encode(b'dm:innodealing'))
    ]
    urllib.request.install_opener(opener)
    urllib.request.urlretrieve(url,filename='agent_file.pdf')
    # 或者
    # response = opener.open(url)
    # print(response.read())


#方法二:
def set_proxy2():
    ip =  '用户名:密码@106.75.59.192:3100'
    proxy_auth = urllib.request.ProxyHandler({'http':'http://' + ip})
    opener = urllib.request.build_opener(proxy_auth)
    opener.addheaders = [
        ('User-agent', 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36')
    ]
    urllib.request.install_opener(opener)
    urllib.request.install_opener(urllib.request.build_opener(urllib.request.BaseHandler()))
    urllib.request.urlretrieve(url,filename='agent_file.pdf')

参考:https://blog.csdn.net/pursuit_zhangyu/article/details/80556275

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

周小董

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值