用c语言进行内码转换

    关于内码转换的文章,网上有不少文章,还有源代码,在csdn上也有不少。就我所知道的,有两种方法比较普遍。以GB和BIG5为例,一则可以构建一个一一对应的表,到要使用的时候一查就可以了,另一种就是使用Windows强大的多国语言处理函数,如WideCharToMultiByte和 MultiByteToWideChar这两个函数,他们使用UNICODE作中转,实现两个代码页之间的转换。

    这些都有前人叙述在前,我就不多说了。我在题目中已经提到是要用用c语言进行内码转换,那第一种方法自然是可以实现的,不过我不希望我的代码冗长无比,这种大表格能不用还是不用为好,省得麻烦。至于第二种方法,要和操作系统打交道,更重要的是,Windows API的风格我很不喜欢,所以我也不想用。

    不过最后的方法还是和第二种方法有些相似 ,不过我不用Windows API,我用标准C函数。

    其实,很久以前,c就对UNICODE和本地化处理有了很好的支持,wcstombs和mbstowcs这两个函数很像我前面提到的那两个Windows API,实现内码转换的原理也是相似的。唯一需要注意的是,在Windows API中多字节字符的代码页直接在函数中设置,而C语言则要在整个运行中设置。

       设置运行时当前代码页的函数是setlocale,使用它需要包含头文件<locale.h>,使用wcstombs和mbstowcs则要包含头文件<wchar.h>。以中文为例936代码页是简体的,950是繁体的,当然也可以和其他汉字内码代码页互相转换,如utf8。下面是一个实例。

#include <stdio.h>
#include <locale.h>
#include <wchar.h>

int main(void)
{
    char *temp;
    char sim[32]="狗";
    char tra[32];
    wchar_t uni[32];
    temp=setlocale(LC_ALL,".936");
    puts(temp);
    printf("%s/t%2x %2x/r/n",sim,(unsigned char)(sim[0]),(unsigned char)(sim[1]));
    if(-1==mbstowcs(uni,sim,32))
    {
        perror("mbstowcs");
    }  
    temp=setlocale(LC_ALL,".950");
    if(-1==wcstombs(tra,uni,32))
    {
        perror("wcstombs");
    }  
    printf("%s/t%2x %2x/r/n",tra,(unsigned char)(tra[0]),(unsigned char)(tra[1]));
    system("PAUSE");
    return 0;
}  

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值