分析编码问题和requests库中文编码问题

什么是编码?什么是解码?

我们知道,在计算机内部,所有的信息都是以二进制的数据,当二进制数据转化为文本的形式(也就是字符集的形式),这一过程就叫解码,字符集形式的数据转化成二进制数据的过程叫做编码,在这里我们可以把“码”这个字理解为--二进制数据,解码就是把这些二进制数据变成我们能理解的文字,文字到二进制数据就是编码(文字到0、1的映射为解码,0、1到文字的映射为编码)。

那么什么是字符集呢?字符集就是字符的集合,每个国家或者地区都有自己的字符集,中国--gbk,美国--ASCII,还有国际上都在使用的utf-8,字符集(Charset):是一个系统支持的所有抽象字符的集合。字符是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。这些字符集都是二进制数据到我们能看懂的文字到映射,并且Unicode字符集定义了世界上所有的字符。

                                                                                   不得不说Unicode

当计算机传到世界各个国家时,为了适合当地语言和字符,设计和实现类似GB232/GBK/GB18030/BIG5的编码方案。这样各搞一套,在本地使用没有问题,一旦出现在网络中,由于不兼容,互相访问就出现了乱码现象。

为了解决这个问题,一个伟大的创想产生了——Unicode。Unicode编码系统为表达任意语言的任意字符而设计。它使用4字节的数字来表达每个字母、符号,或者表意文字(ideograph)。每个数字代表唯一的至少在某种语言中使用的符号。(并不是所有的数字都用上了,但是总数已经超过了65535,所以2个字节的数字是不够用的。)被几种语言共用的字符通常使用相同的数字来编码,除非存在一个在理的语源学(etymological)理由使不这样做。不考虑这种情况的话,每个字符对应一个数字,每个数字对应一个字符。即不存在二义性。不再需要记录"模式"了。U+0041总是代表'A',即使这种语言没有'A'这个字符。

计算机科学领域中,Unicode统一码万国码单一码标准万国码)是业界的一种标准,它可以使电脑得以体现世界上数十种文字的系统。Unicode 是基于通用字符集(Universal Character Set)的标准来发展,并且同时也以书本的形式[1]对外发表。Unicode 还不断在扩增, 每个新版本插入更多新的字符。直至目前为止的第六版,Unicode 就已经包含了超过十万个字符(在2005年,Unicode 的第十万个字符被采纳且认可成为标准之一)、一组可用以作为视觉参考的代码图表、一套编码方法与一组标准字符编码、一套包含了上标字、下标字等字符特性的枚举等。Unicode 组织(The Unicode Consortium)是由一个非营利性的机构所运作,并主导 Unicode 的后续发展,其目标在于:将既有的字符编码方案以Unicode 编码方案来加以取代,特别是既有的方案在多语环境下,皆仅有有限的空间以及不兼容的问题。

Unicode 是一种字符集,规定了符号对应的二进制代码,至于这个二进制代码如何存储则没有任何规定,也就是说它是一种编码规定是编码字符集,而不是实际的编码方案

可以这样理解:Unicode是字符集,UTF-32/ UTF-16/ UTF-8是三种字符编码方案。

 那么为什么会出现乱码的现象呢????

如果此时解码和编码的任意一方出现不一致的现象,此时就会出现乱码现象 !!

requests库中编码的问题

 requests在获取网络资源后,我们可以通过两种模式查看内容。 一个是r.text,另一个是r.content,那他们之间有什么区别呢?

r.text返回的是Unicode型的数据
r.content返回的是bytes型的数据

也就是说,如果你想取文本,可以通过r.text
如果想取图片,文件,则可以通过r.content

requests会从服务器返回的响应头的 Content-Type 去获取字符集编码,如果content-type有charset字段那么requests才能正确识别编码,否则就使用默认的 ISO-8859-1编码方式. 此时就有可能会引起乱码问题!

那么如何解决呢?

方法一:

我们先获得网页的字节型数据,然后我们用已知的网页编码方式来解码

r.content.decode("已知编码方式")

方法二:

我们已知所要爬取的网页的编码方式

利用r.encoing = ("已知的编码方式")即可

方法三:

r.text.endode("utf-8").decode("utf-8")

那么重点来了,我们如何知道网页的编码方式呢???

想要一起交流的小伙伴可以关注我哦~~~

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值