utf8和ucs2互转

 UFT8和UCS2互转效API使用进行拆分字数如图


/*
 *	函数:
 *		 utf8_to_ucs2(utf8转ucs2)
 *  参数:
 *		utf8:utf8数据
 *		utf8_lenght:utf8数据长度
 *		ucs2:保存ucs2数据空间
 *		ucs2_lenght:保存ucs2数据空间长度
 *  返回值:
 *		返回转换后的ucs2字节长度
 *	 备注:
 *		ucs2等于NULL或utf8_lenght小于0都会作为统计不做赋值操作
 * ssdwujianhua 2018/04/26 
 */
unsigned int utf8_to_ucs2(const char * utf8, unsigned int utf8_lenght, char *ucs2, unsigned int ucs2_lenght)
{
	if ( utf8_lenght < 1 && utf8_lenght > ucs2_lenght)
	{
		return 0;
	}
	unsigned int utf8_pos = 0;	   //字节偏移位置
	unsigned int ucs2_pos = 0;
	bool bcount = true; //是否统计
	if(ucs2 != NULL || ucs2_lenght < 0)
	{
		bcount = false;
	}
	while(true)
	{
		if((utf8[utf8_pos]&0x80)==0) //1字节
		{
			if( !bcount )
			{
				ucs2[ucs2_pos]=0;  
				ucs2[ucs2_pos+1]=utf8[utf8_pos]&0x7f; 
			}
			utf8_pos+=1;
			ucs2_pos+=2;
		}
		else if((utf8[utf8_pos]&0xe0)==0xc0)//2字节
		{
			if(!bcount)
			{
				ucs2[ucs2_pos]=(utf8[utf8_pos]&0x1f)>>2;  
				ucs2[ucs2_pos+1]=((utf8[utf8_pos]&0x03)<<6)|(utf8[utf8_pos+1]&0x3f);
			}
			utf8_pos+=2;
			ucs2_pos+=2;
		}
		else if((utf8[utf8_pos]&0xf0)==0xe0)//3字节
		{
			if(!bcount)
			{
				ucs2[ucs2_pos]=((utf8[utf8_pos]&0x0f)<<4)|((utf8[utf8_pos+1]&0x3f)>>2);  
				ucs2[ucs2_pos+1]=((utf8[utf8_pos+1]&0x03)<<6)|(utf8[utf8_pos+2]&0x3f); 
			}
			utf8_pos+=3;
			ucs2_pos+=2;
		}
		else
		{
			return -1;
		}

		if ( utf8_pos >= utf8_lenght)
		{
			if(!bcount)
				ucs2[ucs2_pos]='\0';
			break;
		}
	}
	return ucs2_pos;
}

 /*
  *	函数:
  *		 ucs2_to_utf8
  *  参数:
  *		ucs2:ucs2数据
  *		ucs2_lenght:ucs2数据长度
  *		utf8:保存utf8数据空间
  *		utf8_lenght:保存utf8数据空间长度
  *  返回值:
  *		返回转换后的utf8字节长度
  *	 备注:
  *		uft8等于NULL或utf8_lenght小于0都会作为统计不做赋值操作
  * ssdwujianhua 2018/04/26 
  */
unsigned int ucs2_to_utf8(const char *ucs2, unsigned int ucs2_lenght, char * utf8, unsigned int utf8_lenght)
{
	if ( utf8_lenght < 1 && (utf8_lenght > ucs2_lenght))
	{
		return 0;
	}
	unsigned int utf8_pos = 0;	   //字节偏移位置
	unsigned int ucs2_pos = 0;
	bool bcount = true; //是否统计
	if(utf8 != NULL || utf8_lenght < 0)
	{
		bcount = false;
	}
	while(true)
	{
		if (ucs2[ucs2_pos] == 0x00 && ucs2[ucs2_pos+1] <= 0x7f) //2个字节转成一个字节
		{
			if(!bcount)
			{
				utf8[utf8_pos]=ucs2[ucs2_pos+1]&0x7f;
			}
			ucs2_pos+=2;
			utf8_pos+=1;
		}
		else if ((ucs2[ucs2_pos]&0xf8)==0)//两个字节处理
		{
			if(!bcount)
			{
				utf8[utf8_pos]=0xc0|((ucs2[ucs2_pos]&0x07)<<2)|((ucs2[ucs2_pos+1]&0xc0)>>6);   
				utf8[utf8_pos+1]=0x80|ucs2[ucs2_pos+1]&0x3f;
			}
			ucs2_pos+=2;
			utf8_pos+=2;
		}
		else//三个字节处理
		{
			if(!bcount)
			{
				utf8[utf8_pos]=0xe0|((ucs2[ucs2_pos]&0xf0)>>4);  
				utf8[utf8_pos+1]=0x80|((ucs2[ucs2_pos]&0x0f)<<2)|((ucs2[ucs2_pos+1]&0xc0)>>6);
				utf8[utf8_pos+2]=0x80|ucs2[ucs2_pos+1]&0x3f;
			}
			ucs2_pos+=2;
			utf8_pos+=3;
		}

		if (ucs2_pos >= ucs2_lenght )
		{
			if(!bcount)
				utf8[utf8_pos] = '\0';
			break;
		}
	}
	return utf8_pos;
}

 

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
### 回答1: C语言中可以使用一些函数来实现UCS2到GB2312的转换。 首先,UCS2和GB2312是不同的编码方式,其字符集和字符编码对应关系不同。UCS2是一种使用两个字节表示每个字符的编码方式,主要用于表示国际字符集(Unicode字符集的一部分);而GB2312是一种使用一个或两个字节表示每个字符的编码方式,主要用于中文字符集。 在C语言中,我们可以通过使用 wide character 类型和相关的函数来进行转换。首先,我们需要确保编译器支持 wide character 类型。然后,我们可以使用以下函数将UCS2编码(宽字符)转换为GB2312编码(多字节字符): 1. 创建一个合适的目标字符数组: ```c char gb2312_string[MAX_LENGTH]; ``` 2. 使用`mbstowcs`函数将UCS2字符串转换为宽字符数组: ```c wchar_t ucs2_string[MAX_LENGTH]; mbstowcs(ucs2_string, ucs2_string_source, wcslen(ucs2_string_source) + 1); ``` 3. 使用`wcstombs`函数将宽字符数组转换为GB2312编码的多字节字符数组: ```c wcstombs(gb2312_string, ucs2_string, wcslen(ucs2_string) + 1); ``` 上述过程中,`wcslen`函数用于获取宽字符数组的长度,`mbstowcs`函数用于转换UCS2字符串为宽字符数组,`wcstombs`函数用于将宽字符数组转换为GB2312编码的多字节字符数组。 需要注意的是,转换过程中要保证目标字符数组的大小足够容纳转换结果,防止溢出。此外,转换的结果可能因为字符集之间的差异而产生乱码或无法转换的字符,需要进行适当的处理。 希望以上回答能帮助您理解在C语言中如何实现UCS2到GB2312的转换。 ### 回答2: UCS2和GB2312都是编码方案,用来表示不同语言的字符集。 UCS2是一个16位的编码方案,它使用两个字节来表示一个字符。UCS2适用于表示Unicode字符集中的所有字符,包括英文字母、中文、日文和其他语言的字符。 GB2312是一个中文字符集的编码方案,它是由中国国家标准局开发的。GB2312使用两个字节来表示一个中文字符,其中一个字节表示区域,另一个字节表示位置。GB2312编码方案只能表示汉字,并且仅限于简体中文字符。 要将UCS2编码转换成GB2312编码,可以使用C语言中相关的函数和库。一种常用的方法是使用iconv函数,这个函数可以在libc库中找到。使用iconv函数,你可以指定输入和输出编码方案,然后将UCS2编码的字符转换成GB2312编码。 下面是一个使用iconv函数将UCS2编码转换成GB2312编码的示例: ``` #include <stdio.h> #include <iconv.h> int main() { char ucs2[] = "\u4E2D\u6587"; // UCS2编码的字符串,表示中文两个字 char gb2312[10]; // 用来存储转换后的结果 iconv_t cd = iconv_open("GB2312", "UCS-2"); // 打开一个编码转换句柄 if (cd == (iconv_t)-1) { perror("iconv_open"); return 1; } char* inbuf = ucs2; size_t inbytesleft = sizeof(ucs2); char* outbuf = gb2312; size_t outbytesleft = sizeof(gb2312); if (iconv(cd, &inbuf, &inbytesleft, &outbuf, &outbytesleft) == (size_t)-1) { perror("iconv"); return 1; } printf("GB2312编码: %s\n", gb2312); iconv_close(cd); // 关闭编码转换句柄 return 0; } ``` 以上的代码示例是一个简单的UCS2到GB2312编码转换的过程。你可以将你想要转换UCS2编码的字符串存储在一个字符数组中,然后使用iconv函数进行转换转换后的结果可以存储在另一个字符数组中,然后进行打印或其他操作。 ### 回答3: UCS2和GB2312是两种不同的字符编码方式,UCS2是一种字符集,而GB2312是一种具体的字符编码表。若想将UCS2编码转换为GB2312,可以参考以下方法: 1. 确保所用的编程语言支持UCS2和GB2312编码的操作。 2. 将UCS2编码的字符串转换为Unicode编码。UCS2中每个字符占用两个字节,而Unicode编码则使用四个字节表示每个字符。 3. 判断转换后的Unicode字符是否在GB2312编码表中有对应字符。若存在,则进行字符替换,转换为对应的GB2312编码。 4. 若转换后的Unicode字符不在GB2312编码表中,可以考虑用其他字符编码表,如UTF-8。 需要注意的是,UCS2编码是定长编码,而GB2312编码是变长编码,所以在进行转换时需要注意字符长度的变化。同时,转换过程中可能存在一些特殊字符无法正确转换的情况,需要对这些特殊情况进行处理。 总之,UCS2到GB2312的转换过程需要基于Unicode字符集的转换,并注意处理字符长度变化和特殊字符的问题。具体的实现方法可以根据所用的编程语言和工具进行调整和优化。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值