用JAVA转换简繁体的基础知识

汉字编码标准与识别(一)  

代码页(Code Page)初识  


本节是根据以下文章编写出来的,建议认真研读这些专家的高论。  
参考1 <> 张 轴 材   
<<计算机世界>>周报 97-1-17  
参考2 <<张轴材 谈汉字交换码标准建立历程>> <<计算机世界>>周  
报记者 黄伟敏 肖春江 99-8-30  
参考3 <<中文平台把住“根”留住>> 吴健 <<中国计算机报>>  
出版日期:1998-12-21 总期号:348 本年期号:51  
参考4 <<为种种UNIX中文平台号脉>> 孙玉芳 <<中国计算机用户>>  
出版日期:1998-07-06 总期号:323 本年期号:26  
参考5 CJK.INF:ftp://ftp.ora.com/pub/examples/nutshell/ujip/  
doc/cjk.inf  

因为本人只是业余水平,不是专家,对于参考资料中许多术语还不  
理解,更没有见过任何一种标准的正式文本,错误和模糊之处再所  
难免。同时,因为国家有关部门对于宣传,推广和贯彻国家标准方  
面力度不够,致使象我这样的初学者或初涉该领域的小企业因信息  
资源不足而处于不利的竞争地位。  
ASCII制订的时候,并没有考虑对多语种,特别是对象中国汉字这样  
的象形文字的支持。为此后来又提出了不少解决方案,其中代码页  
体系(ISO2022)是现在普遍实行的方案,而ISO10646/GB13000/Unicode  
是今后发展的方向。  
中国的汉字编码标准GB2312是7bits标准,具体说是双7位字节标准。  
而ASCII是单7位字节标准,计算机怎么区分呢?一种是在第八位置"1",  
提示计算机转入双字节编码,这是最常见的一种实现,也叫EUC  
(Extended Unix Code)编码.另一种是用特殊标记提示计算机转入双  
字节编码,如HZ编码就是用开始,用结束的块标识双字节编码区.它们  
都是GB2312的一种实现.对象中国汉字这样的象形文字体系,代码页  
是根据各个国家,地区或行业标准,按照EUC方式编码。代码页向下  
兼容ASCII,是一种不等长编码。会带来代码的复杂性,同时还会引  
起因代码页切换而带来的乱码问题。  
Unicode是一种多字节等长编码。ISO10646/GB13000/Unicode现已在  
UCS2上实现一致,也就是已实现双字节编码标准。下面所讨论的  
ISO10646/GB13000/Unicode,就只是指UCS2这种情况。Unicode对  
ASCII采取前面加"0"字节的策略实现等长兼容。如"A"的ASCII码为0x41,  
Unicode码就为0x00,0x41。  
这里主要从国家标准(GB)系列入手了解Unicode。如果不是看了参考5  
阅读终点,创作起航,您可以撰写心得或摘录文章要点写篇博文。去创作
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wxyxl

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值