字符编码的发展

字符编码是什么

字符编码也称字集码,是把字符集中的字符编码为指定集合中某一对象,以便文本在计算机中存储和通过通信网络的传递。

我们都知道计算机内所有数据都是用二进制进行表示的,每个二进制位(bit)有0和1的状态。 2.一个字节有8个二进制位,也就是说一个字节有256(2的8次方)种变化,每一个状态对应一个符号,就是256个符号,从0000000到11111111。

字符编码就是在字节和字符之间建立一个映射关系,使得计算机可以用字节存储字符。

ASCII

美国根据自己26个字母定制了一套编码,叫ASCII码;一共规定了128个字符的编码。

32~126(共95个)是字符(32是空格),其中48~57为0到9十个阿拉伯数字。

65~90为26个大写英文字母,97~122号为26个小写英文字母,其余为一些标点符号、运算符号等。

这128个符号(包括32个不能打印出来的控制符号),只占用了一个字节的后面7位,最前面的1位统一规定为0。

GB2312

随着计算机的普及,计算机也来到了中国。在中国我们用的都是汉字,而电脑又不认识中文,这个时候我们自己也设计了一套码表GB2312码表。GB2312编码共收录汉字6763个,其中一级汉字3755个,二级汉字3008个。同时,GB2312编码收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。

GBK编码

GB2312的出现,基本满足了汉字的计算机处理需要,它所收录的汉字已经覆盖中国大陆99.75%的使用频率。但对于人名、古汉语等方面出现的罕用字和繁体字,GB2312不能处理,于是微软利用GB2312未使用的编码空间,对其进行扩展形成了GBK编码。共收录21886个汉字和图形符号,其中汉字(包括部首和构件)21003个,图形符号883个。

Unicode码(万国码)

Unicode又称为统一码、万国码、单一码,是国际组织制定的旨在容纳全球所有字符的编码方案,包括字符集、编码方案等,它为每种语言中的每个字符设定了统一且唯一的二进制编码,以满足跨语言、跨平台的要求。Unicode制定的内容非常多,为便于讲解,本文仅对Unicode字符集和Unicode编码方案重点讲解

世界上有各种各样的编码语言,每个字符表示的编码字符都是不一样的,而Unicode码就是将世界上所有编码语言汇在一起,每个字符所表示的编码代号都是独一无二的。

UTF-8

但是问题来了原本一个英文ASCII码用1个字节就够了,但是Unicode码就需要3个字节或者更多字节,这造成了存储的浪费,这时候UTF8出现了。

UTF-8,是对Unicode编码的压缩和优化,所以UTF-8包含于Unicode,只是他不再使用最少使用2个字节,而是将所有的字符和符号进行分类:ascii码中的内容用1个字节保存、欧洲的字符用2个字节保存,东亚的字符用3个字节保存。

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

阿汤哥798

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值