response.text和response.content

在使用request爬取网页时,避不开编码问题。

爬取网页代码诸如以下所示:

response = requests.get(url)

 到这个地方,存在两种方法提取信息,一种是response.text,另一种是response.content

两者区别:

response.text返回的是一个unicode型的文本数据,只有文本信息

response.content返回的是bytes型的二进制数据,包括图片、文本、文件信息等

两种方法转化为可用的方法如下:

# 方法1
response = requests.get(url)
print(response.content.decode('utf-8'))
# 方法2
response = requests.get(url)
response.encoding = 'utf8'
print(response.text)

如果控制台输出还是有问题,那说明是pycharm等IDE的设置问题。

 

  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: response.text是指响应内容的文本形式,通常是字符串类型。它可以通过response对象的text属性获取。content是指响应内容的二进制形式,通常是bytes类型。它可以通过response对象的content属性获取。在使用requests库发送HTTP请求时,可以根据需要选择获取响应内容的文本形式或二进制形式。 ### 回答2: response.textresponse.content是Python requests库中用于获取HTTP响应正文的两个主要方法。 response.text方法返回的是字符串对象,对于有字符编码的响应(如HTML页面),response.text会自动解码响应正文,并根据响应正文的编码类型返回Unicode类型的字符串。如果响应正文没有字符编码信息或者使用了非标准编码,那么response.text会返回乱码。 response.content方法返回的是二进制数据,对于任何类型的HTTP响应,response.content都会以字节数组的形式返回响应正文,不会对响应正文进行任何自动解析或编码。因此,在处理非文本类型的数据(例如图像或PDF文档)时,应该使用response.content方法。 对于大多数使用情况,response.text应该是首选方法,因为它可以在大多数请求正文和正文类型的情况下提供更方便的处理。不过,在处理二进制数据的情况下,或者需要对响应正文进行更精确的处理时,应该使用response.content方法。 ### 回答3: response.textcontent都是HTTP响应对象的属性,但它们的返回值类型不同。 response.text返回的是Unicode编码的字符串,在读取文本时更加方便。当使用requests库向服务器发送请求时,服务器会返回一个HTTP响应对象,response.text属性会自动将服务器返回的流式文本数据以Unicode编码的形式转化为字符串。因此,我们可以直接使用response.text来读取服务器返回的文本数据。 例如,我们可以使用如下代码来读取百度首页的HTML代码: ```python import requests response = requests.get('http://www.baidu.com') print(response.text) ``` 在返回的结果中,我们可以看到百度首页HTML代码的字符串形式。 而response.content返回的是二进制形式的数据,包括图像、音频和视频等多种类型的数据。相比于response.text,它更适合读取图像、音频和视频这些二进制数据,这些数据无法直接以字符串形式表示。 例如,我们可以使用如下代码来下载一张图片: ```python import requests response = requests.get('https://www.google.com/images/branding/googlelogo/2x/googlelogo_color_272x92dp.png') with open('googlelogo.png', 'wb') as f: f.write(response.content) ``` 这里将响应对象的content属性以二进制形式写入文件中,从而实现图片的下载。 总之,response.text适用于读取文本数据,而response.content适用于读取二进制数据。在使用时需要区别对待。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值