中文字节的区别:
1. UTF-8编码采用三个字节表示;
2. Unicode编码采用二个字节表示;
联系,Unicode与UTF-8编码可以相互转换,转换规则为:
1110xxxx 10xxxxxx 10xxxxxx
以“国”字为例,它的Unicode编码为“56FD”,详细的转换过程如下:
1. 将56FD转换为二进制0101 0110 1111 1101;
2. 然后按照上述规则将二进制填入代码位置;
3. 最后得到结果1110 0101 1001 1011 1011 1101
4. 再次转换为16进制,得到E5 9B BD
再说说在线转换器,大部分的转换器都没有分清楚UTF-8与Unicode的区别,所以它们都把Unicode的结果当作UTF-8的结果,于是得到的所有UTF-8编码都是2个字节的。
最后,个人推荐一个能正确转换的网站,但缺点是每次只能转换一个字符。