字符集编码

1. 什么是字符编码?

    字符(Character)是文字与符号的总称,包括文字、图形符号、数学符号等。一组抽象字符的集合就是字符集(Charset)。
    常用到字符集有:ASCII,ISO-8859-1,GB2312,GBK,GB18030,Unicode

2. 各种编码集有哪些特点?

    ASCII:

    ASCII(American Standard Code for Information Interchange,美国信息交换标准代码)是基于英文大小写,阿拉伯数字和英文符号的一套电脑编码系统。
    包含内容:控制字符(回车,退格,换行键),可显示式字符(英文大小写,阿拉伯数字和西文符号)。
    技术特征:7位(bits)表示一个字符,共128字符
    不足之处:只能表示英语,像西欧,东亚和拉美地区的语言符号无法表示。

    ISO-8859-1集扩展字符集:

    它以ASCII为基础(完全兼容ASCII),在空置的0xA0-0xFF的范围内,加入96个字母及符号,以供使用附加符号的拉丁字母语言使用。曾推出过 ISO 8859-1:1987 版。
    包含内容:ASCII编码包含的,部分西欧使用的语言。
    技术特征:8位表示一个字符。即可表示256个字符。
    
    GB2312:
    由原中国国家标准总局发布,收录简化汉字及一般符号、序号、数字、拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符号、汉语注音字母,共 7445 个图形字符。其中包括6763个汉字,其中一级汉字3755个,二级汉字3008个;还包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。
    GBK:
    因为GB2312中不包含生僻字,因此又创建了另外一套包含生僻字且完全兼容GB2312的字符集。和GB2312一样采用2个字节表示一个字符
    GB18030:
    GBK中也没有包含少数民族的文字,因此中国又新增了GB18030编码,理论上而言这是最全的汉字字符集编码。
    与UTF-8相同,采用多字节编码,每个字可以由1个、2个或4个字节组成。
    
    Unicode:
    全球统一字符集编码,采用4个字节来表示一个字符,理论上而言能包含所有国家的所有字符。但对于欧美国家,他们只需要一个字节就能表示一个字符,因此对于一个用Unicode存储的文件而言,文件大小大3倍。这是十分浪费存储空间的,于是,就出现了UTF的编码方式。如:UTF-8,UTF-16,UTF-32。
    注意:Unicode是编码规范,而UTF-8或者UTF-16是Unicode编码规范的实现方式。
    
    UTF-8:
    UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码(定长码),也是一种前缀码。
    它可以用来表示Unicode标准中的任何字符,且其编码中的第一个字节仍与ASCII兼容,这使得原来处理ASCII字符的软件无须或只须做少部份修改,即可继续使用。因此,它逐渐成为电子邮件、网页及其他存储或传送文字的应用中,优先采用的编码。

    UTF-8使用一至四个字节为每个字符编码:

        128个US-ASCII字符只需一个字节编码(Unicode范围由U+0000至U+007F)。
        带有附加符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文及它拿字母则需要二个字节编码(Unicode范围由U+0080至U+07FF)。
        其他基本多文种平面(BMP)中的字符(这包含了大部分常用字)使用三个字节编码。
        其他极少使用的Unicode辅助平面的字符使用四字节编码。

    总体来说,在Unicode字符串中不可能由码点数量决定显示它所需要的长度,或者显示字符串之后在文本缓冲区中光标应该放置的位置;组合字符、变宽字体、不可打印字符和从右至左的文字都是其归因。所以尽管在UTF-8字符串中字符数量与码点数量的关系比UTF-32更为复杂,在实际中很少会遇到有不同的情形。

最佳实践:

源文件和目标文件编码编码方式一样,且中间过程的编解码都使用源文件的编码方式,从而保证不会出现乱码。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值