用c语言进行内码转换

最新推荐文章于 2022-12-30 16:03:25 发布

zky

最新推荐文章于 2022-12-30 16:03:25 发布

阅读量2.7k

点赞数

文章标签：语言 c windows api system

本文链接：https://blog.csdn.net/zky/article/details/44345

版权

关于内码转换的文章，网上有不少文章，还有源代码，在csdn上也有不少。就我所知道的，有两种方法比较普遍。以GB和BIG5为例，一则可以构建一个一一对应的表，到要使用的时候一查就可以了，另一种就是使用Windows强大的多国语言处理函数，如WideCharToMultiByte和 MultiByteToWideChar这两个函数，他们使用UNICODE作中转，实现两个代码页之间的转换。

这些都有前人叙述在前，我就不多说了。我在题目中已经提到是要用用c语言进行内码转换，那第一种方法自然是可以实现的，不过我不希望我的代码冗长无比，这种大表格能不用还是不用为好，省得麻烦。至于第二种方法，要和操作系统打交道，更重要的是，Windows API的风格我很不喜欢，所以我也不想用。

不过最后的方法还是和第二种方法有些相似，不过我不用Windows API，我用标准C函数。

其实，很久以前，c就对UNICODE和本地化处理有了很好的支持，wcstombs和mbstowcs这两个函数很像我前面提到的那两个Windows API，实现内码转换的原理也是相似的。唯一需要注意的是，在Windows API中多字节字符的代码页直接在函数中设置，而C语言则要在整个运行中设置。

设置运行时当前代码页的函数是setlocale，使用它需要包含头文件<locale.h>，使用wcstombs和mbstowcs则要包含头文件<wchar.h>。以中文为例936代码页是简体的，950是繁体的，当然也可以和其他汉字内码代码页互相转换，如utf8。下面是一个实例。

#include <stdio.h>
#include <locale.h>
#include <wchar.h>

int main(void)
{
    char *temp;
    char sim[32]="狗";
    char tra[32];
    wchar_t uni[32];
    temp=setlocale(LC_ALL,".936");
    puts(temp);
    printf("%s/t%2x %2x/r/n",sim,(unsigned char)(sim[0]),(unsigned char)(sim[1]));
    if(-1==mbstowcs(uni,sim,32))
    {
        perror("mbstowcs");
    }
    temp=setlocale(LC_ALL,".950");
    if(-1==wcstombs(tra,uni,32))
    {
        perror("wcstombs");
    }
    printf("%s/t%2x %2x/r/n",tra,(unsigned char)(tra[0]),(unsigned char)(tra[1]));
    system("PAUSE");
    return 0;
}