常见的字符编码

计算机用高电平和低电平来表示0和1,这就是我们常说的二进制。在计算机中,所有数据的存储和运算都是用二进制来表示。编码说白了就是某个字或符号对应的0和1有几个,排列顺序是怎样的。每一种编码表示某个字符时对应的0和1可能都不相同。所以在编写程序时,我们要统一编码,常见的编码如下:

一、ASCll码

在ASCll 码中,一个英文字母占1个字节。
ASCII 码使用指定的7 位或8 位二进制数组合来表示128 或256 种可能的字符。标准ASCII 码也叫基础ASCII码,使用7 位二进制数(剩下的1位二进制为0)来表示所有的大写和小写字母,数字0 到9、标点符号,以及在美式英语中使用的特殊控制字符。

二、BIG5

BIG5 码,又称大五码,是使用繁体中文社区中最常用的电脑汉字字符集标准,共收录13,060个汉字。Big5虽普及于台湾、香港与澳门等繁体中文通行区,但长期以来并非当地的国家/地区标准或官方标准,而只是业界标准。
Big5码是一套双字节字符集,使用了双八码存储方法,以两个字节来安放一个字。第一个字节称为“高位字节”,第二个字节称为“低位字节”。“高位字节”使用了0x81-0xFE,“低位字节”使用了0x40-0x7E,及0xA1-0xFE。

三、GBK

GBK全称《汉字内码扩展规范》,是我们常说的“国标”,该编码几乎涵盖了所有的中文汉字,其中最常用的就是GB2312——国标2312。一个汉字占2个字节。
原gb2312 HTML编码标签代码如下:

<metahttp-equiv="Content-Type"content="text/html;charset=gb2312"/>

可以缩写为:

<meta charset="gb2312"/><meta charset="gbk"/>

四、UNICODE

UNICODE编码又称万国码,是计算机科学领域里的一项业界标准,包括字符集、编码方案等。Unicode是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。
UNICODE编码几乎包含全世界所有文字,占2个字节(byte)

五、UTF-8

UTF-8是目前用的最多的编码,它具有极强的兼容性,是针对Unicode的一种可变长度字符编码,汉字三个字节,英文一个字节。

总结:有了编码之后,值得一说的就是编译,编译就是把文字翻译为二进制代码;把文本翻译为机器码,这样我们就可以和计算机进行对话了。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值