TinyXML 解析中文XML

最新推荐文章于 2023-12-21 23:33:35 发布

zwh37333

最新推荐文章于 2023-12-21 23:33:35 发布

阅读量7.3k

点赞数

文章标签： file null encoding themes xml api

本文链接：https://blog.csdn.net/zwh37333/article/details/2358241

版权

该博客介绍了如何使用TinyXML库处理包含中文字符的XML文件。通过UTF-8到Unicode的转换方法以及从Unicode到GB2312的转换，展示了在C++中解析XML文件中中文内容的步骤，并提供了一个测试用例来演示具体实现。

摘要由CSDN通过智能技术生成

UTF-8 ---> unicode 转换目前UCS-2 的编码和unicode 的关系是：
0000 - 007F 0xxxxxxx
0080 - 07FF 110xxxxx 10xxxxxx
0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx
例如“张”的unicode 是0x5F20,
对应的二进制是0101 1111 0010 0000B
，因为这个unicode的范围在0800 - FFFF 之间，
UTF-8 的编码就是：
1110 0101 1011 1100 1010 0000 0xE5BCA0
           ----      ------              ----
            5          F     --    2 --   0
大家应该知道怎么转了吧. 因为中文一般都在3个字节区，因此可以这样转换：
int GetNo(char ch)
{   int i = 0;
   while (ch & 0x80)
{       ++i;       ch <<= 1;   }
return i;
}

void UTF8ToUnicode(char *pUnicode, const char *pUtf8, int nBytes)
{   if (0 == nBytes)
{       *pUnicode = *pUtf8;   }
   if (nBytes == 3)
{
*pUnicode = (*pUtf8) & 0xf;
     (*pUnicode) <<= 4;
     pUtf8++;
   char tt = (*pUtf8) & 0x3f;
      char t = (tt >> 2) & 0xf;
     (*pUnicode) |= t;
     char *W1 = pUnicode;
    char W2 = *W1;
    ++pU