文本与文本处理
西文字符的编码
ASCII(美国标准信息交换码)
- 标准ASCII为七位,采用7个二进制位进行编码,8位存储,最高位0作为奇偶校验
- 共有128个字符,包含96个可打印字符和32个控制字符
因为计算机中所有的运算都是根据二进制来的,所以字符也需要有对应的二进制数
上面就为ASCII码表,对应着各种字符。其中我们熟悉的就是A=65,a=97,空格=32,0=48等
汉字的编码
GB2312
第一个我国出版的汉字编码国家标准
组成共6763个汉字
- 第一部分——字母,数字和各种符号
- 第二部分——一级常用汉字,共3755个,按汉语拼音排列
- 第三部分——二级常用汉字,共3008个,按偏旁部首排列
- GB2312采用2个字节编码,每个字节的最高位均为1
GB2312不支持繁体,全都是较为常用的汉字
GBK
- 共有21003(两万多个)个汉字和883个图形符号
- 采用2个字节编码
- 向下兼容GB2312
GBK就是比GB2312要收录汉字更多,同时也加入了繁体,当然本不会丢,因此向下兼容GB2312
GB18030
- 收录字符最多
- 产生原因
- 保护我国汉字资源,既能与国际编码标准接轨,又能向下兼容GBK和GB2312
GB18030是收录最多的汉字编码集,因为要同国际标准接轨,也就是下面要说到的
UCS/Unicode
- 国际编码标准
- 但其汉字标准与国内标准不兼容
GB18030的正是为了同Unicode接轨,保证一致性。而Unicode从字面意思也可以看出,就是联合的编码。如果把各种文字编码形容为各地的方言,那么Unicode就是世界各国合作开发的一种语言。但是Unicode的汉字标准同国内标准不兼容,是因为Unicode可能只有汉字的的简体,没有繁体
区位码,国标码,机内码
国标码是一个四位十六进制数,而区位码是一个四位的十进制数,每个国标码或区位码都对应着一个唯一的汉字或符号.但是因为十六进制我们很少用到,所以一般采用区位码
而机内码就是汉字在计算机内部存放的编码,每个汉字在计算机中都只有一种表现形式.
它们之间的转换关系是
区位码+2020H=国标码.国标码+8080H=机内码.因此机内码=区位码+A0A0H
文本的准备(输入)
文本信息输入
分类
- 人工输入
- 键盘输入
- 联机手写输入
- 语音输入
- 自动识别输入
- 印刷体输入
- OCR光学识别
- 扫描仪
- 手写体输入
人工输入就是一定会有人参与的输入。像我们懒得用手打的语音输入,归根结底还是人要参与的。
自动识别输入是电脑,机器自动去找的,像现在很火的人脸识别技术,其实就是自动识别。常见的扫描仪也属于自动识别.所以,如果有一个要求输入很多字的任务,那必然是由电脑自动去完成要省力的多
汉字的键盘输入编码
- 好的键盘输入编码要求
- 易学习
- 易记忆
- 重码少
- 分类
- 数字
- 字音
- 字形
- 形音
文本的分类
按是否具有编辑排版格式分
- 简单文本
- 丰富格式文本
按文本内容的组织方式分
- 线性文本
- 网状文本(超文本)
简单文本就是.txt的文件,我们常见的最普通的文本文件
而丰富格式文本就类似于.pdf,.doc之类,那些有着各种各样的结构,排版的文件
超文本就是我们常见的超链接之类.超链接的起点位置为链源,目的地为链宿.
文本的编辑,排版,与处理
文本的编辑
文本编译软件能做到“所见即所得”(WYSIWYG)
定义——修改内容和版式
文本的处理
对文本中所含文字信息的形音义等进行处理和分析
文本的编辑与文本的处理的最大区别就在于,文本的编辑改变文本内容,而文本的处理不改变文本内容。像文本的编译例如改变文本大小,像文本的处理例如字数统计,文本检索。
文本的展现
文本展现过程
1. 对文本格式进行解释
2. 生成文字和图标的映像
3. 传送到显示器或打印机输出
——————————————
字形库分类
- 点阵
- 轮廓
文本的展现其实就是比如去打印,你先要告诉打印店的人,我要什么尺寸,是A4还是B5,要双面还是单面。接着他会给你看预览,最后没问题了再输出