UTF-8, UTF-16, UTF-16LE, UTF-16BE的区别

最新推荐文章于 2024-05-14 17:06:44 发布

楼边斜月为明

最新推荐文章于 2024-05-14 17:06:44 发布

阅读量9k

点赞数 8

分类专栏：基础知识 java

java 同时被 2 个专栏收录

69 篇文章 0 订阅

订阅专栏

基础知识

25 篇文章 0 订阅

订阅专栏

  首先, 我们说的unicode, 其实就是utf-16, 但最通用的却是utf-8
原因: 我猜大概是英文占的比例比较大, 这样utf-8的存储优势比较明显, 因为utf-16是固定16位的(双字节), 而utf-8则是看情况而定, 即可变长度, 常规的128个ASCII只需要8位(单字节), 而汉字需要24位 
UTF-16, UTF-16LE, UTF-16BE 及其区别BOM
同样都是unicode, 为什么要搞3种这么麻烦?
先说 比较好理解的, 俗称大头 
比如说char 'a', ascii为 
0x61, 那么它的utf-8, 则为 [0x61], 但utf-16是16位的, 所以为[0x00, 0x61] 
再说UTF-16LE(little endian), 俗称小头, 这个是比较常用的 
还是char 'a', 它的代码却反过来: [0x61, 0x00], 据说是为了提高速度而迎合CPU的胃口, CPU就是这到倒着吃数据的, 这里面有汇编的知识, 不多说 
然后说UTF-16, 要从代码里自动判断一个文件到底是UTF-16LE还是BE, 对于单纯的英文字符来说还比较好办, 但要有特殊字符,
图形符号, 汉字, 法文, 俄语, 火星语之类的话, 相信各位都很头痛吧, 所以, unicode组织引入了BOM的概念, 即byte
order mark, 顾名思义, 就是表名这个文件到底是LE还是BE的, 
其方法就是, 在UTF-16文件的头2个字节里做个标记: LE [0xFF, 0xFE], BE [0xFE, 0xFF]

楼边斜月为明

关注

8
点赞
踩
8

收藏

觉得还不错? 一键收藏
2
评论
UTF-8, UTF-16, UTF-16LE, UTF-16BE的区别

首先, 我们说的unicode, 其实就是utf-16, 但最通用的却是utf-8原因: 我猜大概是英文占的比例比较大, 这样utf-8的存储优势比较明显, 因为utf-16是固定16位的(双字节), 而utf-8则是看情况而定, 即可变长度, 常规的128个ASCII只需要8位(单字节), 而汉字需要24位 UTF-16, UTF-16LE, UTF-16BE 及其区别BOM同样都是uni
复制链接

扫一扫

专栏目录