基础知识
常用的字符集
1. ASC码:英文字母、标点符号等可见字符以及一些不可见的控制字符( ASC占7位; ASCⅡ占8位)
2. GB2312/GBK:对ASSIC码进行扩充,使其支持简体中文
3. Unicode:扩展到世界上很多语言(占32位)
UCS-2字符集、UCS-4字符集
UTF-8字符集:取Unicode中最常用的部分,可变长度编码——目前使用非常广泛
小常识:
很多的编程软件的编辑器默认支持的编码方式都是utf_8编码方式
对于windows系统默认的是GBK的编码方式
python3默认支持UTF-8编码方式;python2默认支持 ASCⅡ编码
另外:
UNicode字符集有一个特殊的替换符号,专门表示一些无法识别或者展示的字符。
乱码问题
本质原因:字符在计算机中实际存储的时候是一串数字,在编码与解码的标准不同的时候就会出现乱码的情况出现
另外,编程中打开文件写入的时候如果没有指定打开文件的编码方式,通常是默认使用操作系统的缺省编码