TinyXML 解析中文XML

该博客介绍了如何使用TinyXML库处理包含中文字符的XML文件。通过UTF-8到Unicode的转换方法以及从Unicode到GB2312的转换,展示了在C++中解析XML文件中中文内容的步骤,并提供了一个测试用例来演示具体实现。
摘要由CSDN通过智能技术生成
UTF-8 ---> unicode 转换目前UCS-2 的编码和unicode 的关系是:
0000 - 007F 0xxxxxxx
0080 - 07FF 110xxxxx 10xxxxxx
0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx
例如“张”的unicode 是0x5F20,
对应的二进制是0101 1111 0010 0000B
,因为这个unicode的范围在0800 - FFFF 之间,
UTF-8 的编码就是:
1110 0101 1011 1100 1010 0000 0xE5BCA0 
           ----      ------              ----
            5          F     --    2  --   0
 大家应该知道怎么转了吧. 因为中文一般都在3个字节区,因此可以这样转换:
 int GetNo(char ch)
{    int i = 0;   
   while (ch & 0x80)  
 {        ++i;        ch <<= 1;    } 
  return i;
}

void UTF8ToUnicode(char *pUnicode, const char *pUtf8, int nBytes)
{    if (0 == nBytes) 
  {        *pUnicode = *pUtf8;    }
   if (nBytes == 3) 
  {     
  *pUnicode = (*pUtf8) & 0xf;  
     (*pUnicode) <<= 4;  
     pUtf8++;    
   char tt = (*pUtf8) & 0x3f; 
      char t = (tt >> 2) & 0xf;
       (*pUnicode) |= t;  
     char *W1 = pUnicode;  
    char W2 = *W1;   
    ++pU
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值