ASCLL,UTF-8,Unicode详解

本文介绍了ASCLL码的起源及其局限性,探讨了Unicode作为全球字符集的规范,以及UTF-8作为Unicode的一种变长编码方式如何解决不同字符长度的问题。此外,还提到了Unicode的另一种实现方式UCS-2及字节序的概念。
摘要由CSDN通过智能技术生成

一、ACSLL码的认识

19世纪60年代,美国为了方便在计算机中使用英文,将英文字母以及一些常用的符号共计128个编写了ASCLL码,并存储为一个字节。大家应该都知道一个字节8个二进制位,按照计算机的存储方式,七个二进制位共可以表示128种不同的状态,ASCLL就将一个字节的第一位设置为0,用剩下的七位共128种状态表示128个符号

 

二、非ASCLL编码

由于计算机的普及,别国也需要在计算机中使用自己国家的语言,但是许多国家语言中有很奇怪的字符。例如俄语中奇奇怪怪的的字母还有法语中的音标,美国制定的ascll码表已经不能满足需求了。于是有些国家就想到利用ascll码表中闲置的第一位编入一些新的符号,这样就有八个二进制位可以表示状态,可表示最多256个符号。但注意这些编码方式都是依托于ASCLL的,即它们的0-127位与ASCLL是一致的,也可以说他们是ASCLL的扩展。

但由于互联网浪潮的关系,每个国家的128-255这一段表示的字符都不一样,只能关上门来自己用,搭上互联网就gg了。特别是中文多达10万个汉字,如何表示?

当然我们知道有GBK这一种编码方式为中文而生,但是与本篇内容没什么关系,里面的门道也很多,所以不做讨论

 

三、Unicode是个啥~

首先需要知道的是,Unicode只是一个符号集,一个规范,它将全世界所有国家的符号收录进来(包括ASCLL码表中的字符),并规定了每个符号对应的二进制数。

百度Unicode中文码表,可以看到每个汉字对应的Unicode码。

码表数使用转化后的16进制表示&#x

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值