字符编码初步理解

最新推荐文章于 2020-05-04 16:42:33 发布

yezhenquan123

最新推荐文章于 2020-05-04 16:42:33 发布

阅读量270

点赞数

分类专栏：计算机基础文章标签：字符编码 Unicode

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yezhenquan123/article/details/78977784

版权

计算机基础专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、基本概念

字符集，字符编码/解码

字符集：系统所支持的自然语言的集合，一般按语言和区域划分

字符编码/解码：将字符集合的字符与数字信息建立对应关系

二、字符编码/解码实现

2.1 将字符和数字对应关系放在表中，通过查表的方式实现编码

2.1.1 代码页，码表

对不同字符集使用不同的代码页，每个代码页中定义了许多码表，码表中有字符和字节的对应关系。

注：但代码页并不完全等同于字符集，有时由于现实需要，对字符集进行了扩展

早期，代码页是计算机BIOS中支持的，提供给命令行界面。但后来操作系统也有了字符绘制功能，于是微软自己设计了一系列支持不同国家和地区所制定的字符集，被称作“Windows代码页”或“ANSI代码页”。代表性的是实现了ISO-8859-1(即Latin-1)的代码页1252(即CP1252)，以及实现了GBK的代码页936(即CP936)。

2.2 Unicode

虽然通过使用不同字符集，可以在一台机器上查阅不同语言的文档，但是我们仍然无法解决一个问题：在一份文档中显示所有字符。

Unicode字符集涵盖了目前人类使用的所有字符，并为每个字符进行统一编号，分配唯一的字符码（Code Point）。
Unicode字符集将所有字符按照使用上的频繁度划分为17个层面（Plane），每个层面上有65536个字符码空间。
其中第0个层面BMP，基本涵盖了当今世界用到的所有字符。其他的层面要么是用来表示一些远古时期的文字，要么是留作扩展。

在Unicode出现之前，所有的字符集都是和具体编码方案绑定在一起的，都是直接将字符和最终字节流绑定死了。
这种方式的缺点在于，字符和字节流之间耦合得太紧密了，从而限定了字符集的扩展能力。

传统方式：字符 –> 字节流

Unicode字符集中每个字符都有唯一的字符码，但这些字符码可以通过不同的编码方式转换为字节流。

Unicode：字符 –> 字符码 –> 字节流

常见 Unicode 编码：
- UCS-2/UTF-16
- UTF-8

参考网址：
http://www.techug.com/post/character-set.html
https://www.cnblogs.com/benbenalin/p/6911781.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
字符编码初步理解

一、基本概念字符集，字符编码/解码字符集：系统所支持的自然语言的集合，一般按语言和区域划分字符编码/解码：将字符集合的字符与数字信息建立对应关系二、字符编码/解码实现2.1 将字符和数字对应关系放在表中，通过查表的方式实现编码2.1.1 代码页，码表对不同字符集使用不同的代码页，每个代码页中定义了许多码表，码表中有字符和字节的对应关系。注：但代码页并不完
复制链接

扫一扫

专栏目录

yezhenquan123 CSDN认证博客专家 CSDN认证企业博客

码龄13年

11: 原创

27万+: 周排名

138万+: 总排名

4万+: 访问

: 等级

502: 积分

4: 粉丝

15: 获赞

2: 评论

43: 收藏

私信

关注

热门文章

分类专栏

大数据 2篇
项目工程 3篇
计算机基础 1篇
Linux 1篇
Python 12篇
Web 开发 1篇

最新评论

正向代理与方向代理简单图解
风里雾里: 我有一个博客，内容有正向代理，审核不通过，你的为什么可以？
正向代理与方向代理简单图解
czniki:

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。