文字编码 ASCII 汉字GB2312 UTF-8解析

多媒体第一个作业是LZW编码,课件的上的一句话“文本文件和光栅图像文件的数据重复度很高,所以适合字典编码”给我印象挺深,想就此发表一下对文本文件和光栅图像文件的理解。

文本文件,我们经常看的估计也就是记事本了,也就是所谓的.txt文件。在熟悉文本文件之前,一些基本的编码东西还是要了解的,首先ASCII码,UNICODE码,UTF系列编码。ASCII,美国信息交换标准代码(America standard code of Information Interchange),用一个字节的7位,美国专用。欧洲也要编码,于是字节的8位全用上,有了IBM/ISO Latin-1。然后是第三世界国家,中国,韩国等,于是就必须得扩展了,我们中文辐射区的文字表示甚是复杂,于是两个字节的UNICODE出世。但是在几种编码的兼容问题出现了,怎样让中文的一个文件能在美国读出来呢?一种权衡方案出台--UTF系列。UTF,Universal Transformation Format,通用转换格式。UTF-8是一种非定长的字符表示方式,具体实现可以参见相关资料。

下面讨论输入码,区位码,国标码,机器码。国家标准总局1981年发布的《信息交换用汉字编码字符集--基本集》也就是著名的GB2312,是我国ASCII码。输入码,也就是我们中国人在英文键盘上的输入的码字,输入码可以有许多种,比如按拼音方式的输入码,按字型方式的输入码,甚至汉王的手写等模式识别类的输入工具都可以。输入码转变成区位码,这里涉及不同输入码的映射方式。区位码是把所有的中文字符及一些汉字中定义的一些字符等映射到一个94*94的矩阵,矩阵的行叫做区,矩阵的列叫做位。按理说汉

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值