utf-8的意义学习笔记

最新推荐文章于 2024-04-30 11:24:21 发布

菲菲拟

最新推荐文章于 2024-04-30 11:24:21 发布

阅读量634

点赞数

文章标签：其他

本文链接：https://blog.csdn.net/weixin_63432798/article/details/124600431

版权

UTF-8是一种针对Unicode的可变长度字符编码，由Ken Thompson在1992年创建。它兼容ASCII，节省内存，尤其适合混合文本。相比之下，Unicode是一种统一编码标准，能表示所有语言的字符。然而，Unicode在存储时可能比ASCII更占用空间。UTF-8通过不同字节模式适应不同长度的字符，避免乱码问题，同时在英文文本中效率高。

摘要由CSDN通过智能技术生成

UTF-8（全称：8-bit Unicode Transformation Format）是一种针对Unicode的可变长度字符编码，由Ken Thompson于1992年创建，而utf8_encode是PowerBuilder的函数，该函数将 data 字符串转换为 UTF-8 编码，并返回编码后的字符串。UTF-8 是一种用于将宽字符值转换为字节流的 Unicode 的标准机制。简单来说，utf-8就是一种编码格式，一个字节包含8bit。

在utf-8之前，使用的是机器可识别的ASCLL码，相信大家都知道什么是ASCLL码，因为ACLL码只有8位数，除去第一位0，所以ASCLL码最多可以表示2^7，即128个字符，其中包含0-9的阿拉伯数字，a-z的大小写和一些标点符号等等，其中可读的只有95个，其余为控制符。而这对于其他语言来说，比如汉字，就会远远不够，所以后来产生了多字节编码，相比ASCLL这种单字节编码，双字节可以编码65536给字符。

这样每种语言就可以有他们自己的编码体系，但是不同的编码体系在一起容易使人和电脑搞混，所以，出现了统一编码Unicode

它可以用来表示Unicode标准中的任何字符，且其编码中的第一个字节仍与ASCII兼容，这使得原来处理ASCII字符的软件无须或只须做少部份修改，即可继续使用。

那么utf-8和Unicode又有什么区别呢

计算机只能识别二进制，因此严格按照Unicode（USC-2）的方式存储对比ASCLL字符串部分，多占用了1个字节，在一篇大量英文文本里，相比UTF-8就会浪费了大量内存。

而utf-8对于单字节字符，如英文文本，UTF-8与ASCLL完全相同，只占用一个字节，在n个字节的字符(n>1)，第一个字节的前n位设为1，第n+1位设为0，后面字节的前两位都设为10，这n个字节的其余空位填充该字符unicode码，高位用0补足。这样在混合文本里，既能准确表示汉字，不出现乱码，又能节约内存。

菲菲拟

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
utf-8的意义学习笔记

UTF-8（全称：8-bit Unicode Transformation Format）是一种针对Unicode的可变长度字符编码，由Ken Thompson于1992年创建。它可以用来表示Unicode标准中的任何字符，且其编码中的第一个字节仍与ASCII兼容，这使得原来处理ASCII字符的软件无须或只须做少部份修改，即可继续使用。...
复制链接

扫一扫