UTF-8 ---> unicode 转换目前UCS-2 的编码和unicode 的关系是:
0000 - 007F 0xxxxxxx
0080 - 07FF 110xxxxx 10xxxxxx
0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx
例如“张”的unicode 是0x5F20,
对应的二进制是0101 1111 0010 0000B
,因为这个unicode的范围在0800 - FFFF 之间,
UTF-8 的编码就是:
1110 0101 1011 1100 1010 0000 0xE5BCA0
---- ------ ----
5 F -- 2 -- 0
大家应该知道怎么转了吧. 因为中文一般都在3个字节区,因此可以这样转换:
int GetNo(char ch)
{ int i = 0;
while (ch & 0x80)
{ ++i; ch <<= 1; }
return i;
}
void UTF8ToUnicode(char *pUnicode, const char *pUtf8, int nBytes)
{ if (0 == nBytes)
{ *pUnicode = *pUtf8; }
if (nBytes == 3)
{
*pUnicode = (*pUtf8) & 0xf;
(*pUnicode) <<= 4;
pUtf8++;
char tt = (*pUtf8) & 0x3f;
char t = (tt >> 2) & 0xf;
(*pUnicode) |= t;
char *W1 = pUnicode;
char W2 = *W1;
++pU
0000 - 007F 0xxxxxxx
0080 - 07FF 110xxxxx 10xxxxxx
0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx
例如“张”的unicode 是0x5F20,
对应的二进制是0101 1111 0010 0000B
,因为这个unicode的范围在0800 - FFFF 之间,
UTF-8 的编码就是:
1110 0101 1011 1100 1010 0000 0xE5BCA0
---- ------ ----
5 F -- 2 -- 0
大家应该知道怎么转了吧. 因为中文一般都在3个字节区,因此可以这样转换:
int GetNo(char ch)
{ int i = 0;
while (ch & 0x80)
{ ++i; ch <<= 1; }
return i;
}
void UTF8ToUnicode(char *pUnicode, const char *pUtf8, int nBytes)
{ if (0 == nBytes)
{ *pUnicode = *pUtf8; }
if (nBytes == 3)
{
*pUnicode = (*pUtf8) & 0xf;
(*pUnicode) <<= 4;
pUtf8++;
char tt = (*pUtf8) & 0x3f;
char t = (tt >> 2) & 0xf;
(*pUnicode) |= t;
char *W1 = pUnicode;
char W2 = *W1;
++pU