utf-8格式、utf-16格式

最新推荐文章于 2024-05-27 17:40:49 发布

雪人2015

最新推荐文章于 2024-05-27 17:40:49 发布

阅读量2.4k

点赞数

分类专栏：心得

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xujiezhige/article/details/6328246

版权

心得专栏收录该内容

26 篇文章 0 订阅

订阅专栏

utf-8的格式如下

注意：x代表0或1的数值。范围字段是以16进制，编码形式字段是以2进制给出

范围编码形式

0x00000000-0x0000007F 0xxxxxxx

0x00000080-0x000007FF 110xxxxx,10xxxxxx

0x00000800-0x0000FFFF 1110xxxx,10xxxxxx,10xxxxxx

0x00010000-0x0010FFFF 11110xxx,10xxxxxx,10xxxxxx,10xxxxxx

utf-16的格式如下

范围编码形式

0x00000000-0x0000FFFF xxxxxxxx,xxxxxxxx

0x00010000-0x0010FFFF 110110xx,xxxxxxxx,110111xx,xxxxxxxx

0x00010000-0x0010FFFF范围是将字符原始表示减去0x00010000再进行编码，使用了0xD800,0xDC00做为代理，将前一步得到的结果的高10bit和低10bit分别与0xD800和0xDC00进行或运算，得到高字，和低字,最后拼接起来。

为了能够在一堆都是用两个字节表示的utf-16的字符中能够识别4个字节的utf-16的字符，我们规定如果看到两个字节的值在0xD800-0xDCFF之间，我们就认为这两个字节和后面两个字节才能构成一个字符。这样的话，我们把2字节的utf-16的0xD800-0xDCFF区域专门用作代理了，这也是代理的的由来。这个区域中的含义如下：

0xD800-0xDB7F是高位替代

0xDB80-0xDBFF是高位专用替代

0xDC00-0xDCFF是低位替代

其中高位专用替代是专门用来表示0xf0000-0x10ffff范围的字符，也就是平面15和平面16，也成为专用区，所以这个高位成为高位专用替代

而utf中有大尾序和小尾序之分，也称为大端序和小端序。

大尾序中高字节放在低地址（前面），低字节放放到高地址（后面）

假如得到的结果是0xD950 0xDF21：

大尾序中： 0xD950 0xDF21

小尾序中： 0x50D9 0x21DF

这里主要是如果你是将utf16编码的字符写到一个字节缓冲区中，需要注意大小端序。

如果是保存在wchar_t数组中则无需调换高字节和低字节的顺序。

另外我们说的ucs2是utf-16的子集，是utf-16中除去四字节编码的那块部分的编码方案。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。