字符编码初步理解

一、基本概念

字符集,字符编码/解码

字符集:系统所支持的自然语言的集合,一般按语言和区域划分

字符编码/解码:将字符集合的字符与数字信息建立对应关系

二、字符编码/解码实现

2.1 将字符和数字对应关系放在表中,通过查表的方式实现编码

2.1.1 代码页,码表

对不同字符集使用不同的代码页,每个代码页中定义了许多码表,码表中有字符和字节的对应关系。

注:但代码页并不完全等同于字符集,有时由于现实需要,对字符集进行了扩展

早期,代码页是计算机BIOS中支持的,提供给命令行界面。但后来操作系统也有了字符绘制功能,于是微软自己设计了一系列支持不同国家和地区所制定的字符集,被称作“Windows代码页”或“ANSI代码页”。代表性的是实现了ISO-8859-1(即Latin-1)的代码页1252(即CP1252),以及实现了GBK的代码页936(即CP936)。

2.2 Unicode

虽然通过使用不同字符集,可以在一台机器上查阅不同语言的文档,但是我们仍然无法解决一个问题:在一份文档中显示所有字符。

Unicode字符集涵盖了目前人类使用的所有字符,并为每个字符进行统一编号,分配唯一的字符码(Code Point)。
Unicode字符集将所有字符按照使用上的频繁度划分为17个层面(Plane),每个层面上有65536个字符码空间。
其中第0个层面BMP,基本涵盖了当今世界用到的所有字符。其他的层面要么是用来表示一些远古时期的文字,要么是留作扩展。

在Unicode出现之前,所有的字符集都是和具体编码方案绑定在一起的,都是直接将字符和最终字节流绑定死了。
这种方式的缺点在于,字符和字节流之间耦合得太紧密了,从而限定了字符集的扩展能力。

传统方式:字符 –> 字节流

Unicode字符集中每个字符都有唯一的字符码,但这些字符码可以通过不同的编码方式转换为字节流。

Unicode: 字符 –> 字符码 –> 字节流

常见 Unicode 编码:
- UCS-2/UTF-16
- UTF-8

参考网址:
http://www.techug.com/post/character-set.html
https://www.cnblogs.com/benbenalin/p/6911781.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值