字符集介绍

字符编码介绍
一、ANSI美国国家标准学会(AMERICAN NATIONAL STANDARDS INSTITUTE: ANSI)
ASCII编码(American Standard Code for Information Interchange,美国信息互换标准代码)
美国兴起计算机初期的编码,没有考虑第三世界国家的语言
二、DBCS(Double Byte Charecter Set 双字节字符集)
GB2312 是对 ASCII 的中文扩展
GBK 包括了 GB2312 的所有内容,同时又增加了近20000个新的汉字(包括繁体字)和符号
GB18030是GBK又加了几千个新的少数民族的字
这一系列汉字编码通称"DBCS"(Double Byte Charecter Set 双字节字符集)
三、UTF(UCS Transfer Format)

 ISO (国际标准化组织)废了所有的地区性编码方案,重新搞一个包括了地球上所有文化、所有字母和符号的编码!"Universal Multiple-Octet Coded Character Set",简称 UCS, 俗称 "UNICODE"。
 
 UNICODE 来到时,一起到来的还有计算机网络的兴起,UNICODE 如何在网络上传输也是一个必须考虑的问题,于是面向传输的众多 UTF(UCS Transfer Format)标准出现了,
 顾名思义,UTF8就是每次8个位传输数据,而UTF16就是每次16个位,只不过为了传输时的可靠性,从UNICODE到UTF时并不是直接的对应,而是要过一些算法和规则来转换。
 
 

1.  常用字符集分类
ASCII及其扩展字符集
作用:英语及西欧语言。
位数:ASCII是用低7位(b7默认为0)表示,能表示128个字符;其扩展使用8位表示,表示256个字符。
范围:ASCII从00到7F,扩展从00到FF。
ISO-8859-1(1~16)字符集
作用:扩展ASCII,表示西欧、希腊语等。
位数:8位。
范围:从00到FF,兼容ASCII字符集。
GB2312字符集   
作用:国家简体中文字符集,兼容ASCII。
位数:使用2个字节表示,能表示7445个符号,包括6763个汉字,涵盖所有常用汉字。
范围:高字节从A1到F7, 低字节从A1到FE。

BIG5字符集
作用:统一繁体字编码。
位数:使用2个字节表示,总计13053个汉字。
范围:高字节从A1到F9,低字节从40到7E,A1到FE。

SJIS字符集
作用:日文字符编码。
位数:使用2个字节表示,总计7724个字符。
范围:高字节从81到9F, E0到FC,低字节从40到7E,80到FC。

EUC-KR字符集

作用:韩文字符编码。
位数:使用2个字节表示,总结17048个字符
范围:高字节从81到FD,低字节从40到7E,80到FE。

GBK字符集

作用:它是GB2312的扩展,加入对繁体字的支持,兼容GB2312。
位数:使用2个字节表示,可表示21886个字符。
范围:高字节从81到FE,低字节从40到FE (7F 除外)。
GB18030字符集
作用:它解决了中文、日文、朝鲜语等的编码,兼容GBK。
位数:它采用变字节表示(1 ASCII,2,4字节)。可表示27484个文字。
范围:1字节从00到7F; 2字节高字节从81到FE,低字节从40到7E和80到FE;4字节第一三字节从81到FE,第二四字节从30到39。
UCS字符集
作用:国际标准 ISO 10646 定义了通用字符集 (Universal Character Set)。它是与UNICODE同类的组织,UCS-2和UNICODE兼容。
位数:它有UCS-2和UCS-4两种格式,分别是2字节和4字节。
范围:目前,UCS-4只是在UCS-2前面加了0×0000。
UNICODE字符集
作用:为世界650种语言进行统一编码,兼容ISO-8859-1。
位数:UNICODE字符集有多个编码方式,分别是UTF-8,UTF-16和UTF-32。


2. 按所表示的文字分类

语言                                 字符集                                     正式名称
英语、西欧语                      ASCII,ISO-8859-1                MBCS 多字节(也可说本地字符集或内码)
简体中文                           GB2312                                 MBCS 多字节(也可说本地字符集或内码)
繁体中文                           BIG5                                     MBCS 多字节(也可说本地字符集或内码)
简繁中文                           GBK                                      MBCS 多字节(也可说本地字符集或内码)  
中文、日文及朝鲜语             GB18030                               MBCS 多字节(也可说本地字符集或内码)  
多国语言合集                     UNICODE,UCS                      DBCS 宽字节(统一码)

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值