汉字编码

最新推荐文章于 2024-08-06 16:53:01 发布

weixin_43645502

最新推荐文章于 2024-08-06 16:53:01 发布

阅读量589

点赞数

本文链接：https://blog.csdn.net/weixin_43645502/article/details/102883190

版权

编码是计算机可识别的；字符是自己认知中的汉字。

在这里插入图片描述
字符集编码是指对多个字符（通常在几十到几万个不等）进行整合封装成一个文件所使用的编码，外部程序通过这种编码就可以从字符集文件中调用指定的字符。我们常见的计算机字体文件就使用了字符集编码，通过输入法输入文字或者浏览网页时都会通过指定的字符集编码从字体文件中调用字符。

以下是常见的字符集编码：
GB2312编码：GB2312对汉字采用双字节编码，收录7445个图形字符，其中包括6763个汉字。

BIG5编码：台湾地区繁体中文标准字符集，采用双字节编码，共收录13053个中文字。

GBK编码：是对GB2312编码的扩充，包含汉字更全，对汉字采用双字节编码。GBK字符集共收录21003个汉字，包含国家标准GB13000-1中的全部中日韩汉字，和BIG5编码中的所有汉字。

GB18030编码：是对GBK编码的扩充，覆盖中文、日文、朝鲜语和中国少数民族文字，其中收录27484个汉字。GB18030字符集采用单字节、双字节和四字节三种方式对字符编码。兼容GBK和GB2312字符集。

Unicode编码：国际标准字符集，它将世界各种语言的每个字符定义一个唯一的编码，以满足跨语言、跨平台的文本信息转换。

UTF-8：是Unicode的实现方式之一；因为Unicode只是一个符号集，它只规定了符号的二进制代码，却没有规定这个二进制代码应该如何存储。它的特点是能根据不同的符号而变化字节长度。

ANSI编码：ANSI并不是某一种特定的字符编码，而是在不同的系统中，ANSI表示不同的编码。你的美国同事Bob的系统中ANSI编码其实是ASCII编码（ASCII编码不能表示汉字，所以汉字为乱码），而你的系统中（“汉字”正常显示）ANSI编码其实是GBK编码，而韩文系统中（“한국어”正常显示）ANSI编码其实是EUC-KR编码。
（可通过在命令行下执行chcp命令查看当前code page的值来判断系统默认编码；936为GBK编码）
from: http://www.cnblogs.com/malecrab/p/5300486.html

BOM：Byte Order Mark，用来标识字节流的字节顺序的。会在文件开始的地方插入三个不可见的字符（0xEF 0xBB 0xBF，即BOM）。去掉UTF-8编码文件BOM的方法：用Notepad++的Encoding菜单中的Encoding in UTF-8 without BOM即可。或者用任何16进制编辑器将文件前三个字节去掉。再或者更简单的：用VIM设置UTF-8编码的BOM标记。