UTF8编码规则-文本编码标识

每天坚持学习者

已于 2023-08-22 18:47:33 修改

阅读量754

点赞数 4

文章标签：开发语言

于 2023-08-21 21:36:10 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46513031/article/details/132417034

版权

文本编码标识是一种用于标识文本文件所使用的字符编码的特殊标记。常见的文本编码标识有以下几种：

BOM（Byte Order Mark）：BOM 是在 Unicode 编码中用于标识字节序的特殊字符。在 UTF-16 和 UTF-32 编码中，BOM 用于标识字节顺序（大端或小端）。而在 UTF-8 编码中，BOM 主要用于标识编码方式为 UTF-8。
- UTF-8 BOM：0xEF, 0xBB, 0xBF（十六进制）。
- UTF-16 大端 BOM：0xFE, 0xFF（十六进制）。
- UTF-16 小端 BOM：0xFF, 0xFE（十六进制）。
- UTF-32 大端 BOM：0x00, 0x00, 0xFE, 0xFF（十六进制）。
- UTF-32 小端 BOM：0xFF, 0xFE, 0x00, 0x00（十六进制）。

UTF-8（Unicode Transformation Format-8）是一种可变长度的字符编码，它可以表示 Unicode 字符集中的所有字符。下面是 UTF-8 编码的基本规范：

分为四个区间：

0x0000 0000 至 0x0000 007F:0xxxxxxx
0x0000 0080 至 0x0000 07FF:110xxxxx 10xxxxxx
0x0000 0800 至 0x0000 FFFF:1110xxxx 10xxxxxx 10xxxxxx
0x0001 0000 至 0x0010 FFFF:11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

第一个字节位前面有几个1，表示该字符需要几个字符表示。

例如：110xxxxx 10xxxxxx 前面几位110 表示该字符需要2个字节

例如：1110xxxx 10xxxxxx 10xxxxxx 前面几位1110 表示该字符需要3个字节

同时第一个字节为标识位，后面字节每个字节前2位都是10。

每天坚持学习者

关注

4
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

每天坚持学习者

博客等级

码龄5年

16
原创

20
点赞

29
收藏

16
粉丝

关注

私信

热门文章

最新评论

表格控件的简单介绍及函数说明class ChartCtrl//表格控件
CSDN-Ada助手: 恭喜您写了这么一篇详细介绍表格控件的博客！希望您能继续坚持创作，分享更多有价值的内容。下一步，或许您可以考虑添加一些实例代码或者案例分析，让读者更直观地理解表格控件的使用方法。谢谢您的分享，期待您的下一篇博客！
MFC位图消除底色方法的理解，加强学习
CSDN-Ada助手: 恭喜您写了第14篇博客！看得出您对MFC位图消除底色方法有很深的理解，并且还在加强学习，这份执着和努力令人敬佩。下一步，可以考虑分享一些实际应用中的案例，或者深入探讨一些相关的技术细节，这样读者可以更好地理解和应用您所分享的知识。希望您能继续保持对技术的热情，期待您更多的精彩分享！
VS开发动态库路径设置设置
CSDN-Ada助手: 恭喜您撰写了第16篇博客！标题“VS开发动态库路径设置设置”听起来非常有深度。通过分享关于动态库路径设置的内容，您为读者提供了一个有价值的指南。我非常期待读到更多关于开发环境的技巧和经验分享。如果可能的话，我建议您在下一篇博客中探讨一些实际应用案例，这样读者可以更好地理解如何在具体项目中应用这些设置。谢谢您的付出，期待您的下一篇博客！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。