计算机基础——5.1 文本与文本处理

文本与文本处理

西文字符的编码

ASCII(美国标准信息交换码)

  • 标准ASCII为七位,采用7个二进制位进行编码,8位存储,最高位0作为奇偶校验
  • 共有128个字符,包含96个可打印字符和32个控制字符

在这里插入图片描述

因为计算机中所有的运算都是根据二进制来的,所以字符也需要有对应的二进制数
上面就为ASCII码表,对应着各种字符。其中我们熟悉的就是A=65,a=97,空格=32,0=48等

汉字的编码

GB2312
第一个我国出版的汉字编码国家标准
组成共6763个汉字

  • 第一部分——字母,数字和各种符号
  • 第二部分——一级常用汉字,共3755个,按汉语拼音排列
  • 第三部分——二级常用汉字,共3008个,按偏旁部首排列
  • GB2312采用2个字节编码,每个字节的最高位均为1

GB2312不支持繁体,全都是较为常用的汉字

GBK

  • 共有21003(两万多个)个汉字和883个图形符号
  • 采用2个字节编码
  • 向下兼容GB2312

GBK就是比GB2312要收录汉字更多,同时也加入了繁体,当然本不会丢,因此向下兼容GB2312

GB18030

  • 收录字符最多
  • 产生原因
    • 保护我国汉字资源,既能与国际编码标准接轨,又能向下兼容GBK和GB2312

GB18030是收录最多的汉字编码集,因为要同国际标准接轨,也就是下面要说到的

UCS/Unicode

  • 国际编码标准
  • 但其汉字标准与国内标准不兼容

GB18030的正是为了同Unicode接轨,保证一致性。而Unicode从字面意思也可以看出,就是联合的编码。如果把各种文字编码形容为各地的方言,那么Unicode就是世界各国合作开发的一种语言。但是Unicode的汉字标准同国内标准不兼容,是因为Unicode可能只有汉字的的简体,没有繁体

区位码,国标码,机内码
国标码是一个四位十六进制数,而区位码是一个四位的十进制数,每个国标码或区位码都对应着一个唯一的汉字或符号.但是因为十六进制我们很少用到,所以一般采用区位码
而机内码就是汉字在计算机内部存放的编码,每个汉字在计算机中都只有一种表现形式.

它们之间的转换关系是
区位码+2020H=国标码.国标码+8080H=机内码.因此机内码=区位码+A0A0H

文本的准备(输入)

文本信息输入
分类

  • 人工输入
    • 键盘输入
    • 联机手写输入
    • 语音输入
  • 自动识别输入
    • 印刷体输入
      • OCR光学识别
      • 扫描仪
    • 手写体输入

人工输入就是一定会有人参与的输入。像我们懒得用手打的语音输入,归根结底还是人要参与的。
自动识别输入是电脑,机器自动去找的,像现在很火的人脸识别技术,其实就是自动识别。常见的扫描仪也属于自动识别.所以,如果有一个要求输入很多字的任务,那必然是由电脑自动去完成要省力的多

汉字的键盘输入编码

  • 好的键盘输入编码要求
    • 易学习
    • 易记忆
    • 重码少
  • 分类
    • 数字
    • 字音
    • 字形
    • 形音

文本的分类

按是否具有编辑排版格式分

  • 简单文本
  • 丰富格式文本

按文本内容的组织方式分

  • 线性文本
  • 网状文本(超文本)

简单文本就是.txt的文件,我们常见的最普通的文本文件
而丰富格式文本就类似于.pdf,.doc之类,那些有着各种各样的结构,排版的文件

超文本就是我们常见的超链接之类.超链接的起点位置为链源,目的地为链宿.

文本的编辑,排版,与处理

文本的编辑

文本编译软件能做到“所见即所得”(WYSIWYG)
定义——修改内容和版式

文本的处理

对文本中所含文字信息的形音义等进行处理和分析

文本的编辑与文本的处理的最大区别就在于,文本的编辑改变文本内容,而文本的处理不改变文本内容。像文本的编译例如改变文本大小,像文本的处理例如字数统计,文本检索。

文本的展现

文本展现过程
1. 对文本格式进行解释
2. 生成文字和图标的映像
3. 传送到显示器或打印机输出
——————————————
字形库分类

  • 点阵
  • 轮廓

文本的展现其实就是比如去打印,你先要告诉打印店的人,我要什么尺寸,是A4还是B5,要双面还是单面。接着他会给你看预览,最后没问题了再输出

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值