python urllib urlretrieve学习使用

import urllib
import os

def reporthook(blocks_read, block_size, total_size):
    if not blocks_read:
        print "Connection opened"
        return
    if total_size < 0:
        print "Read %d blocks (%d bytes)" % (blocks_read, blocks_read * block_size)
        
    else:
        amount_read = blocks_read * block_size
        print "Read %d blocks,  %d/%d, %.0f%%" % (blocks_read, amount_read, total_size, amount_read*100.0/(total_size))
    
    return
try:
    filename, msg = urllib.urlretrieve("http://www.xiaomi.com", reporthook=reporthook)
    print
    print "File:", filename
    print "Headers:"
    print msg
    print "File exists before cleanup:", os.path.exists(filename)
    
finally:
    urllib.urlcleanup()
    
    print "File still exists:", os.path.exists(filename)
    


输出如下:

Connection opened
Read 1 blocks,  8192/55662, 15%
Read 2 blocks,  16384/55662, 29%
Read 3 blocks,  24576/55662, 44%
Read 4 blocks,  32768/55662, 59%
Read 5 blocks,  40960/55662, 74%
Read 6 blocks,  49152/55662, 88%
Read 7 blocks,  57344/55662, 103%

File: /tmp/tmp4lhkGA
Headers:
Date: Wed, 19 Feb 2014 08:55:20 GMT
Content-Type: text/html; charset=utf-8
Cache-Control: max-age=1800
X-Cacheable: MI-WWW-Cacheable
Server: MIFE/3.0
Expires: Wed, 19 Feb 2014 09:25:20 GMT
Powered-By-ChinaCache: MISS from 010519h3SP.4
Age: 990
Content-Length: 55662
Powered-By-ChinaCache: HIT from 01005143SG
Connection: close

File exists before cleanup: True
File still exists: False

可以看到最后竟然读取了103%, 这是由于每次读取都是按照block 8192bytes来读取的,就算最后不满8192bytes, 也返回一个block的size

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
可以使用 Python 自带的 urllib 库来下载文件。可以使用 urllib.request.urlretrieve() 方法来下载文件。 以下是一个示例代码: ```python import urllib.request url = 'http://www.example.com/file.txt' filename = 'file.txt' urllib.request.urlretrieve(url, filename) ``` 在上面的代码中,url 是要下载的文件的 URL,filename 是保存该文件的路径和文件名。 如果你需要下载的文件需要身份验证,可以使用 urllib.request.HTTPBasicAuthHandler() 方法来添加身份验证信息。以下是一个示例代码: ```python import urllib.request import urllib.error url = 'http://www.example.com/file.txt' filename = 'file.txt' username = 'your_username' password = 'your_password' password_mgr = urllib.request.HTTPPasswordMgrWithDefaultRealm() password_mgr.add_password(None, url, username, password) auth_handler = urllib.request.HTTPBasicAuthHandler(password_mgr) opener = urllib.request.build_opener(auth_handler) try: urllib.request.install_opener(opener) urllib.request.urlretrieve(url, filename) except urllib.error.URLError as e: print(e.reason) ``` 在上面的代码中,我们使用了 HTTPPasswordMgrWithDefaultRealm() 方法来创建密码管理器,添加了我们的用户名和密码。然后使用 HTTPBasicAuthHandler() 方法来创建身份验证处理器。使用 build_opener() 方法来创建 opener 对象,使我们能够使用身份验证访问 URL。最后使用 install_opener() 方法来安装 opener 对象。如果下载过程中出现错误,我们打印错误信息。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值