编码

编码解码

  1. 计算机中的单位

    • 数据存储的最小单位,每个二进制数字0或者1就是一个位(bit),又称为比特;
    • 字节
      8个位构成一个字节;即1 byte(字节) = 8 bit(位),byte 简称 B
      1 KB = 1024 B(字节)
      1 MB = 1024 KB
      1 GB = 1024 MB
  2. 计算机常用编码
    编码是信息从一种形式或格式转换为另一种形式的过程,也称为计算机编程语言的代码简称编码
    • ASC II 码:
      (American Standard Code for Information Interchange,美国信息交换标准代码),是由美国国家标准学会指定的。asc ii码每个字符占据1 byte,用二进制表示 标准asc ii 码最高位为0,可表示128种可能字符,扩展asc ii 最高位为1,可表示256种可能字符。对于美国来讲英文字母加一些特殊符号足够用了。
    • GB2312:
      计算机从国外传到中国,中国的汉字非常多,那么用ASC II码,就不够用了。中国国家标准总局就制定了GB2312(国标码),来适应中国的国情。GB2312 一个汉字占据2 byte。数值小于127的字节表示ASCII中原有字符,两个连续数值都大于127的字节表示一个汉字字符。在此增加了6000多个常用汉字。
    • GBK:
      中国汉字博大精深,GB2312 增加的6000多个汉字还是不够用,GBK对GB2312进行了升级,使用GBK编码,当读取到一个数值上小于127的字节时当作一个ASCII中原有的字符处理。读到一个数值大于127的字节时必定会继续读取下一个字节,下一个字节的数值无需大于127,将两个字节一起组合形成一个汉字字符。仅仅这点改变让GBK 在GB2312 的基础上增加了20000多个汉字。
    • Unicode:
      我国有GB2312 和GBK,别的国家也有自己的编码,导致了各个国家之间存在复杂的编码转换问题。于是出现了Unicode:unicode编码表中包含了世界上所有国家的所有字符和符号的编码。unicode编码是一种概念,在最新的规范中,所有的字符一概使用四个字节表示。
    • UTF-8:
      unicode编码是一种概念,实际上真正实现了unicode编码的是被使用次数最多的UTF标准(UCS Transfer Format)。在UTF标准中现今最常用的是UTF-8。UTF-8是unicode编码的一种实现。
      UTF-8灵活性很强,用1~4个字节表示一个字符。
      当字符在ASCII中可以被表示时,UTF-8编码方式就用一个字节来表示它
      在UTF-8中汉字用3个字符来表示。
      GBK、GB2312等与UTF8之间都必须通过Unicode编码才能相互转换 一般为了国际化方便都会选用utf-8.至于节省空间来讲,就看哪个表示你需要的字符用的byte 少。可以根据自己需要选用。
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值