1. 文本文件的编码方式ASCLL和UTF-8
介绍一下文本文件的编码格式,在计算机中可以直接来查看文本文件的内容,但是在计算机中文本文件本质上同样是以二进制的方式来存储的.
那么文本文件中每一个字符到底是怎样用二进制来表示的呢?需要介绍两个计算机中的编码,一个是古老的ASCLL 编码,一个是UNICODE 编码.
那么先来看一下ASCLL 编码, 之所以说ASCLL 编码是古老的编码,是因为计算机最早是美国人发明的,美国人为了在计算机中使用自己熟悉的英语,就制定了ASCLL 编码方案,在ASCLL 编码中啊,使用一个字节来表示一个字符,在计算机中,一个字节就包含有8个0或者1,
8 个0 或者1进行排列组合,一共有256种组合方式, 2的8次方,因此呢,ASCLL 编码定义的字符,一共就有256个,试想一下,美国人习惯使用的英语用256个字词能够描述吗?下面一张ASCLL 码表,在ASCLL 表中定义有大写的A到大写的Z,然后定义有小写的a到小写的z,英语只有26个字母,大小写加起来不过才50多个.
除此之外呢,还定义有数字0到数字9,同时在ASCLL 码表中, 还针对转义字符定义了一下,熟悉的\t横向制表符, \n换行, \r回车,转义字符,其实都是ASCLL 编码中早就定义好了.
美国人为了在计算机中使用英文, 制定了ASCLL编码,ASCLL编码中一共有256个字符,256个字符完全能够涵盖英文字母以及数字,.
汉字有数以万计个字符,那数以万计的字符显然不能够用256来涵盖,那因此UNICODE 这种编码就应运而生了,UNICODE 是一种编码,而在UNICODE 中有一种非常常见的编码格式叫做UTF-8,UTF-8是使用1~6个字节来描述一个字符的,对比一下,ASCLL 编码是使用一个字节描述一个字符,而UTF-8 最多可以使用6个字节来描述一个字符,意味着UTF-8涵盖的内容会更多, UTF- 8几乎涵盖了地