汉字在电脑中是如何存储与编码

英语文字是拼音文字,一切文字均由26个字母拼组而成,所以运用一个字节表明一个字符足够了。但汉字是象形文字,汉字的核算机处置技能比英文字符杂乱得多,普通用两个字节表明一个汉字。由于汉字有一万多个,常用的也有六千多个,所以编码选用两字节的低7位共14个二进制位来表明。普通汉字的编码方案要处置4种编码问题。

1)汉字交流码

汉字交流码主要是用作汉字信息交流的。以国家标准局1980年公布的《信息交流用汉字编码字符集根本集》(代号为GB2312-80)规矩的汉字交流码作为国家标准汉字编码,简称国标码。

国标GB 2312-80规矩,一切的世界汉字和符号组成一个94×94的矩阵。在该矩阵中,每一行称为一个“区”,每一列称为一个“位”,这样就构成了94个区号(0194)和94个位号(0194)的汉字字符集。国标码中有6763个汉字和628个其他根本图形字符,合计7445个字符。其间规矩一级汉字3755个,二级汉字3008个,图形符号682个。一个汉字地点的区号与位号简略地组合在一起就构成了该汉字的“区位码”。在汉字区位码中,高两位为区号,低两位为位号。因而,区位码与汉字或图形符号之间是一一对应的。一个汉字由两个字节代码表明。

2)汉字机内码 核算机博客

汉字机内码又称内码或汉字存储码。该编码的作用是共同了各种异样的汉字输入码在核算机内的表明。汉字机内码是核算机内部存储、处置的代码。核算机既要处置汉字,又要处置英文,所以必须能差异汉字字符和英文字符。英文字符的机内码是最高位为08ASCII码。为了区别,把国标码每个字节的最高位由0改为1,其他位不变的编码作为汉字字符的机内码。

一个汉字用两个字节的内码表明,核算机显现一个汉字的进程首先是依据其内码找到该汉字字库中的地址,然后将该汉字的点阵字型在屏幕上输出。

汉 字的输入码是多种多样的,同一个汉字若是选用的编码方案异样,则输入码就有能够不相同,但汉字的机内码是相同的。有专用的核算机内部存储汉字运用的汉字内 码,用以将输入时运用的多种汉字输入码共同变换成汉字机内码进行存储,以便利机内的汉字处置。在汉字输入时,依据输入码经过核算机或查找输入码表完结输入 码到机内码的变换。如汉字世界码(H)+8080H)=汉字机内码(H)。

3)汉字输入码

汉字输入码也叫外码,是为了经过键盘字符把汉字输入核算机而描绘的一种编码。

英 文输入时,想输入什么字符便按什么键,输入码和内码是共同的。而汉字输入规矩异样,能够要按几个键才干输入一个汉字。汉字和键盘字符组合的对应方法称为汉 字输入编码方案。汉字外码是对准异样汉字输入法而言的,经过键盘按某种输入法进行汉字输入时,人与核算机进行信息交流所用的编码称为“汉字外码”。关于同 一汉字而言,输入法异样,其外码也是异样的。例如,关于汉字“啊”,在区位码输入法中的外码是1601,在拼音输入中的外码是a,而在五笔字型输入法中的外码是KBSK。汉字的输入码品种繁复,大致有4品种型,即音码、形码、数字码和音形码。

4)汉字字形码

汉字在显现和打印输出时,是以汉字字形信息表明的,即以点阵的方法构成汉字图形。汉字字形码是指断定一个汉字字形点阵的代码(汉字字形码)。普通选用点阵字形表明字符。

当前遍及运用的汉字字型码是用点阵方法表明的,称为“点阵字模码”。所谓“点阵字模码”,就是将汉字像图画相同置于网状方格上,每格是存储器中的一个位,16×16点阵是在纵向16点、横向16点的网状方格上写一个汉字,有笔画的格对应1,无笔画的格对应0。这种用点阵方式存储的汉字字型信息的调集称为汉字字模库,简称汉字字库。

一般汉字显现运用16×16点阵,而汉字打印可选用24×24点阵、32×32点阵、64×64点阵等。汉字字形点阵中的每个点对应一个二进制位,1字节又等于8个二进制位,所以16×16点阵字形的字要运用32个字节(16×16÷8字节=32字节)存储,64×64点阵的字形要运用512个字节。

16 × 16 点阵字库中的每一个汉字以 32 个字节寄存,存储一、二级汉字及符号共 8836 个,需求 282.5KB 磁盘空间。而用户的文档假定有 10 万个汉字,却只需求 200KB 的磁盘空间,这是由于用户文档中存储的仅仅每个汉字(符号)在汉字库中的地址(内码)
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值