1、编码发展起源:
编码最早来源于ASCII码,共占用1byte 其中0-127表示英文大小写字母及其它字符,剩余128位预留给其余国家使用(从汉字的博大精深来看,这点量压根就不够)。
随着我国计算机技术的发展,在1980年 使用gb2312(内涵7000个常用中文),1995年 升级至GBK1.0(内涵20000多中文),2000年 升级至GB18030(内涵27000多中文),在我国编码发展的同时,非使用英文国家也在发展自己的编码方式,就造成了不同国家之间的软件,无法互装,为解决这个问题,国际组织提出使用unicode,共占用2字节 将大部分语言统一规划到unicode中,但由于英文编码位数的浪费,又对其进行升级,最后定制了最新的utf-8编码,其中英文表示占1byte,中文表示占3bytes
2、Python2与Python3
Python2中默认使用ASCII编码
可在Python2中开头加入 #-*- coding:utf-8 -*- 就可解码中文内容
Python3中默认使用UTF-8编码