关于C++中UTF-8字符串截取时乱码问题

最新推荐文章于 2024-08-05 11:00:22 发布

xiaolong662007

最新推荐文章于 2024-08-05 11:00:22 发布

阅读量3.1k

点赞数

文章标签： c++ 存储 html 工具 xml

本文链接：https://blog.csdn.net/xiaolong662007/article/details/7862986

版权

前一段时间在做一个xml解析工具，将内容解析之后，截取其中的一段汉字（带标点数字等）显示在HTML 中，结果出现乱码。因为在UTF－8选择了使用可变长度字节来储存Unicode，ASCII字母继续使用1字节储存，重音文字、希腊字母或西里尔字母等使用2字节来储存，而常用的汉字就要使用3字节，辅助平面字符则使用4字节。如果使用普通的按字节数来截取的话，就可能会出现半个字符的情况，表现为乱码。我的处理方式是：将UTF-8编码转换为宽字节，然后进行字节截取，完成之后再转换回UTF－8。函数如下：

/*****************************************************************
name：changCharToWchar

input:const char* int

return: int

function:将UTF-8编码转换为宽字节，然后进行字节截取，完成之后再转换回UTF－8
*****************************************************************/
int changCharToWchar(const char *s,int k)
{

wchar_t dest[100]= {'\0'};                   //以宽字节存储电影简介信息
    char destC[100] = {0};                       //处理完毕之后，存储电影简介信息
   memset(destC,0,strlen(destC));     //初始化
   memset(dest,0,sizeof(dest));

   int i = 0 ,j = 0;
   const char *src = s;
   j = k;                                           //传入的需要转换的字节数
   setlocale(LC_CTYPE, "");                        //使用系统的环境
   int length = mbstowcs(dest,src,j);

   length = length/2;

   for (i = 0; i < length; i++)
   {
       wchar_t sub[100] = { 0 };
       wcsncpy(sub, dest, i+1);
       printf("sub=%s\n",sub);
       int len = wcstombs(destC, sub, j);
       }
}