思路:
uft8下的中文是 3个字节,分别是 1110 xxxx 10xx xxxx 10xx xxxx,所以遇到中文的是3个字节读入,以0x80为判断条件。英文字符都是一个字节录入。
函数:
输入:
str:字符串
str_len:转化后的的长度
chnum:中文个数
ennum:英文个数
static int* StringToUnicode(string str,int* str_len,int * chnum,int * ennum)
{
int* result;
int* res;
int en_num = 0;
int ch_num = 0;
int num = 0;
int max_len = 512;
res = (int*)malloc(sizeof(int)*max_len);
memset(res,0,sizeof(int)*max_len);
long int r = 0x0000;
int count = 0;
int ch_index = 0;
for(int i = 0;i<str.size();i++)
{
int s = (int)str.at(i);
//printf("%4x ",(int)str.at(i));
if(s>=0x80)
{