计算机编码, ansi, unicode, utf-8 区别

最新推荐文章于 2024-01-31 11:09:14 发布

给我一首歌的时间@

最新推荐文章于 2024-01-31 11:09:14 发布

阅读量464

点赞数

分类专栏：计算机文章标签： java

本文链接：https://blog.csdn.net/wml_sing/article/details/128075216

版权

计算机专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文介绍了计算机编码的发展历程，从最初的ASCII编码到Unicode的出现，旨在统一全球字符表示。Unicode包含所有国家的字符，而UTF-8作为其变长编码方式，能有效处理英文和中文。ANSI编码则根据不同地区有不同的标准，如GBK、Big5等，但它们之间不兼容，导致跨语言交流难题。总结了编码的基本概念，包括字符集、编码规则以及Unicode和UTF-8的工作原理。

摘要由CSDN通过智能技术生成

编码发展

计算机初始诞生于美国, 因此刚开始的编码只有 ASCII 编码, 只有128 个, 但是足够表示所有的英文和其他特殊字符

后来随着中国等其他世界国家的加入, 原来的 ASCII 明显不满足需求, 国际组织为了交流的方便, 统一了一种全新的编码 unicode 编码将世界所有国家的字符都编写进入这部大字典, 每个字符都有一个码点/码位

字符集编码规则

字符集：为每一个「字符」分配一个唯一的 ID（学名为码位 / 码点 / Code Point）
编码规则：将「码位」转换为字节序列的规则（编码/解码可以理解为加密/解密的过程）

ANSI

美国国际标准协会将不同国家和地区制定的不同的标准汇总, 因此产生了GB2312、GBK、Big5、Shift_JIS
等各自的编码标准。这些使用 1 至 4 个字节来代表一个字符的各种汉字延伸编码方式, 称为 ANSI 编码

在简体中文Windows操作系统中，ANSI 编码代表 GBK 编码；在日文Windows操作系统中，ANSI 编码代表 Shift_JIS
编码。不同 ANSI 编码之间互不兼容，当信息在国际间交流时，无法将属于两种语言的文字，存储在同一段 ANSI 编码的文本中