计算机基础——5.1 文本与文本处理

最新推荐文章于 2024-05-31 09:55:17 发布

尖兵果子

最新推荐文章于 2024-05-31 09:55:17 发布

阅读量2.1k

点赞数 1

文章标签：硬件工程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wfy17030212/article/details/120814237

版权

计算机基础专栏收录该内容

23 篇文章 15 订阅

订阅专栏

文本与文本处理

西文字符的编码

ASCII(美国标准信息交换码)

标准ASCII为七位，采用7个二进制位进行编码，8位存储,最高位0作为奇偶校验
共有128个字符，包含96个可打印字符和32个控制字符

在这里插入图片描述

因为计算机中所有的运算都是根据二进制来的，所以字符也需要有对应的二进制数
上面就为ASCII码表，对应着各种字符。其中我们熟悉的就是A=65，a=97，空格=32，0=48等

汉字的编码

GB2312
第一个我国出版的汉字编码国家标准
组成共6763个汉字

第一部分——字母，数字和各种符号
第二部分——一级常用汉字，共3755个，按汉语拼音排列
第三部分——二级常用汉字，共3008个，按偏旁部首排列
GB2312采用2个字节编码，每个字节的最高位均为1

GB2312不支持繁体，全都是较为常用的汉字

GBK

共有21003（两万多个）个汉字和883个图形符号
采用2个字节编码
向下兼容GB2312

GBK就是比GB2312要收录汉字更多，同时也加入了繁体，当然本不会丢，因此向下兼容GB2312

GB18030

收录字符最多
产生原因
保护我国汉字资源，既能与国际编码标准接轨，又能向下兼容GBK和GB2312

GB18030是收录最多的汉字编码集，因为要同国际标准接轨，也就是下面要说到的

UCS/Unicode

国际编码标准
但其汉字标准与国内标准不兼容

GB18030的正是为了同Unicode接轨，保证一致性。而Unicode从字面意思也可以看出，就是联合的编码。如果把各种文字编码形容为各地的方言，那么Unicode就是世界各国合作开发的一种语言。但是Unicode的汉字标准同国内标准不兼容，是因为Unicode可能只有汉字的的简体，没有繁体

区位码,国标码,机内码
国标码是一个四位十六进制数，而区位码是一个四位的十进制数，每个国标码或区位码都对应着一个唯一的汉字或符号.但是因为十六进制我们很少用到，所以一般采用区位码
而机内码就是汉字在计算机内部存放的编码,每个汉字在计算机中都只有一种表现形式.

它们之间的转换关系是
区位码+2020H=国标码.国标码+8080H=机内码.因此机内码=区位码+A0A0H

文本的准备（输入）

文本信息输入
分类

人工输入
键盘输入
联机手写输入
语音输入

自动识别输入
印刷体输入
OCR光学识别
扫描仪

手写体输入

人工输入就是一定会有人参与的输入。像我们懒得用手打的语音输入，归根结底还是人要参与的。
自动识别输入是电脑，机器自动去找的，像现在很火的人脸识别技术，其实就是自动识别。常见的扫描仪也属于自动识别.所以,如果有一个要求输入很多字的任务,那必然是由电脑自动去完成要省力的多

汉字的键盘输入编码

好的键盘输入编码要求
易学习
易记忆
重码少

分类
数字
字音
字形
形音

文本的分类

按是否具有编辑排版格式分

简单文本
丰富格式文本

按文本内容的组织方式分

线性文本
网状文本(超文本)

简单文本就是.txt的文件，我们常见的最普通的文本文件
而丰富格式文本就类似于.pdf，.doc之类,那些有着各种各样的结构，排版的文件
超文本就是我们常见的超链接之类.超链接的起点位置为链源，目的地为链宿.

文本的编辑,排版,与处理

文本的编辑

文本编译软件能做到“所见即所得”(WYSIWYG)
定义——修改内容和版式

文本的处理

对文本中所含文字信息的形音义等进行处理和分析

文本的编辑与文本的处理的最大区别就在于，文本的编辑改变文本内容，而文本的处理不改变文本内容。像文本的编译例如改变文本大小，像文本的处理例如字数统计，文本检索。

文本的展现

文本展现过程
1. 对文本格式进行解释
2. 生成文字和图标的映像
3. 传送到显示器或打印机输出
——————————————
字形库分类

点阵
轮廓

文本的展现其实就是比如去打印，你先要告诉打印店的人，我要什么尺寸，是A4还是B5，要双面还是单面。接着他会给你看预览，最后没问题了再输出

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
计算机基础——5.1 文本与文本处理

文本与文本处理
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。