urllib.request.urlopen(url)不能两次.read()?

最新推荐文章于 2022-07-02 09:53:39 发布

小绿鸡

最新推荐文章于 2022-07-02 09:53:39 发布

阅读量1.1k

点赞数 1

分类专栏：爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_44548627/article/details/122782283

版权

在学习Python爬虫时遇到一个问题，使用urllib.request.urlopen获取网页内容后，首次调用response.read()能正常获取数据，但第二次调用返回空。经探究，发现response.read()一旦读取过所有字节，再次调用就会返回空。解决方案是直接使用response.read().decode('utf-8')写入文件。

摘要由CSDN通过智能技术生成

问题描述：

笔者在初学Python爬虫时，用到 urllib.request.urlopen 获取百度搜索页面 (http://www.baidu.com) 上的信息。

首先，访问百度并获取网页信息，将信息保存在 response 中。代码如下：

from urllib.request import urlopen
url = r'http://www.baidu.com'
response = urlopen(url)

然后，调用 .read() 看一下 response 的内容，发现 charset=utf-8，于是用 utf-8 解码。代码如下：

print(response.read())

''' 

结果：
b'<!DOCTYPE html><!--STATUS OK-->\n\n\n    
<html><head><meta http-equiv="Content-Type" content="text/html;
charset=utf-8">
......'

'''

最后，用 utf-8 解码 response 的内容，并把解码后的内容保存到百度.html 中。代码如下：

with open(r'百度.html','w') as f:
    f.write(response.read().decode('utf-8'))

然而，打开百度.html 后却发现其一片空白？？？

现在打印一下 response.read().decode(‘utf-8’)，居然也是空的？？？

print(response.read()

最低0.47元/天解锁文章

小绿鸡

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
urllib.request.urlopen(url)不能两次.read()?

笔者在初学Python爬虫时，用到 urllib.request.urlopen 获取百度搜索页面 (http://www.baidu.com) 上的信息，发现 urllib.request.urlopen(url) 在第二次调用 .read() 时变为空了，这是因为第一次调用 .read() 已经把所有字节都解读了。
复制链接

扫一扫