UTF 编码

本文介绍了Unicode Transformation Format(UTF)的不同编码方式,包括UTF-8和UTF-16。UTF-8因其节省存储空间和对程序处理的适应性而被广泛应用,而UTF-16则因字符固定字节数和适合程序处理的特点受到青睐。UTF-8使用1到4个字节编码字符,UTF-16则使用2到4个字节,两者各有优势与不足。
摘要由CSDN通过智能技术生成

 UTF 是英文 Unicode Transformation Format 的缩写,意为把 Unicode 字符转换为某种格式。

优势:节省存储空间,自动纠错性能好、利于传输、扩展性强;

劣势:主要是由于字符的编码字节数不固定导致不利于程序内部处理,比如导致正则表达式检索的复杂度大为增加;而UTF-32这样的等长码元序列(即等宽码元序列)的编码方式就比较适合程序处理,当然,缺点是比较耗费存储空间。

UTF-8 和 UTF-16 被广泛使用

UTF-8 使用一至四个字节为每个字符编码,其中 Unicode BMP 平面的汉字采用三个字节编码,辅助平面的汉字采用四个字节编码。因为 UTF-8 是可变长度的编码方式,相对于 Unicode 编码可以减少存储占用的空间,所以被广泛使用。

UTF-16 使用二或四个字节为每个字符编码,其中 Unicode BMP 平面的汉字采用两个字节编码,辅助平面的汉字采用四个字节编码。UTF-16 编码有大尾序和小尾序之别,即 UTF-16BE 和 UTF-16LE,在编码前会放置一个 U+FEFF 或 U+FFFE(UTF-16BE 以 FEFF 代表,UTF-16LE 以 FFFE 代表),其中 U+FEFF 字符在 Unicode 中代表的意义是 ZERO WIDTH NO-BREAK SPACE,顾名思义,它是个没有宽度也没有断字的空白。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值