手持两把锟斤拷,口中疾呼烫烫烫

最新推荐文章于 2024-11-08 14:34:47 发布

程序员可乐、

最新推荐文章于 2024-11-08 14:34:47 发布

阅读量376

点赞数

文章标签：预编码 linux

本文链接：https://blog.csdn.net/ysvae/article/details/132300680

版权

大家好，我是可乐。

你是否有过在网页上看到一堆乱码，完全不知所云的经历？或者你试图打开一个文档，结果看到的都是奇怪的字符？这背后的元凶，很可能是字符编码。

这听起来像是一个高深的计算机名词，但实际上，不管你是学计算机或者不是学计算机的，它关乎我们每个人。

想象一下，你有没有经历过这样一个场景，你在与一个朋友进行通信，但是你们之间的距离很远，所以你们决定使用一种信号方式。你们都决定：把手举高意味着“是”或“好的”，把手放低意味着“不是”或“不好”。这就是一个简单的“编码”或“约定”：你们赋予特定的手势以特定的意义。

回到计算机这边，计算机原生只理解高低电平，只能识别二进制（0和1）。但我们人类使用的文本是字符、字母、数字和其他符号。所以，我们需要一个方法来告诉计算机：“嘿，当我给你这一串01时，我其实是想表示字母A。”这就是字符编码的起源。

于是，ASCII出现了。这是一个简单的编码表，用来告诉计算机：“嘿，当我说‘A’时，你可以用1000001这串数字来表示。”就这样，英文与计算机之间的沟通桥梁被架起。

但英文并非唯一的语言。欧洲有很多其他的语言和符号。为此，ISO-8859-1出现了，它包含了大部分西欧语言的字符。

东方的文字千变万化，尤其是中文，每一个汉字都是一个小故事。但如何将它们“翻译”给只懂0和1的计算机呢？

中国的工程师们没有退缩。他们创建了GB2312和GBK编码，试图用数字语言告诉计算机每一个汉字的样子。

而在台湾和香港，Big5编码则担任这个重要任务。

但随着时间的流逝，人们意识到：我们需要一个全球通用的字符编码，而不是每个地方都有自己的编码。这就是Unicode的起源。它像是一个超大的“字典”，试图涵盖地球上所有的文字。

但是，仅有字典是不够的。我们还需要一种方法，让计算机能读懂这个字典。因此，UTF-8、UTF-16和UTF-32这几种“翻译方法”应运而生。

尤其是UTF-8，几乎成为了互联网的通用语言，因为它既能理解简单的英文字符，也能表达复杂的汉字或其他符号。

这里我重点说一下这两者的区别。

理解“UTF”与“Unicode”的区别是理解字符编码的关键之一。这两个词经常被人们混淆，但它们的目标和功能是有所区别的。

Unicode：
- 定义：Unicode是一个字符集（CharacterSet）。它定义了每一个字符在计算机中的唯一数字编号。
- 目的：为世界上的每一种字符分配一个唯一的编号，无论这个字符是什么语言，什么平台，什么程序，什么设备。
- 例子：在Unicode中，“A”对应的编号是U+0041，而“中”对应的编号是U+4E2D。
- 注意：Unicode只是定义了字符和编号的映射关系，但并没有规定如何在计算机中存储这个编号。
UTF (Unicode Transformation Format)：
- 定义：UTF是一系列的字符编码方案，描述了如何在计算机中存储和传输由Unicode指定的数字编号。
- 种类：主要有三种UTF编码方案：UTF-8、UTF-16和UTF-32。数字（如“8”，“16”或“32”）代表每个字符使用的位数的基本单元。例如，UTF-8使用8位（1字节）为基本单元，但某些字符可能会使用多个字节。
- 例子：在UTF-8中，“A”的存储形式是41（十六进制），而“中”的存储形式是E4 B8 AD（十六进制）。
- 优势：UTF-8尤为重要，因为它是兼容ASCII的，且在互联网中广泛使用。