【C语言】多字节字符、宽字符(涉及字符集和编码)

字符集、编码:

字符集:一个系统支持的所有抽象字符的集合。字符是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。例如:ASCII、Unicode、GB2312、GBK、GB18030、BIG5(繁体中文) ...

编码方式:符号集合与数字系统之间的对应关系,是信息处理的一项基本技术,将符号转换为计算机可以接受的二进制数值。例如:ASCII、UTF-8、UTF-16、UTF-32、GB2312、GBK、GB18030 ...

① ASCII:编码范围0x00-0x7F(即0-127),只用7位二进制就表示所有英文字符(128个字符)。ASCII是单字节编码,一个字符占1个字节。

② Unicode字符集:称为统一码、万国码、国际码。编码范围0x0000-0x10FFFF,包括100多万个字符。每个字符都有一个二进制数值(码值、码点),例如:字符"A"的码点为"0x0041",字符"中"的码点为"0x4E2D"。

Unicode字符集有3种存储方式:UTF-8,UTF-16,UTF-32。

  • UTF-8 编码:广泛使用的编码方式。可变长度编码规则,一个字符1-4个字节,不同字符占用字节数不同。前128个字符(ASCII),一个字符占1个字节。一个汉字一般占用3个字节。UTF-8不需要BOM来表明字节顺序,但可以表明编码方式。
  • UTF-16 编码:对应UCS-2(Universal Character Set coded in 2 octets),一个字符占2个字节,范围为 U+0000~U+FFFF。需要识别字节顺序(大端或小端)。需要BOM(Byte Order Mark, 放在文档开头告诉阅读器该文档的字节序)。
  • UTF-32 编码:对应UCS-4,一个字符占4个字节,范围为 U+00000000~U+7FFFFFFF,其中 U+00000000~U+0000FFFF和UCS-2一样。需要BOM(Byte Order Mark)。

③ GB2312:中国国家标准简体中文字符集,专门用于汉字处理、汉字通信信息交换等。GB2312是对ASCll码的扩展,一个汉字占用两个字节。只有6000多个汉字。

GBK:《汉字内码扩展规范》,GB2312的扩展,有2万多个码值。一个汉字占用两个字节。一般看到936就知道是GBK。

GB18030:国家标准GB 18030-2005《信息技术中文编码字符集》,中国最新的内码字集。与GB 2312完全兼容,与GBK基本兼容,支持Unicode的全部统一汉字。是变长编码方式,可以是1个字节、2个字节和4个字节。

UTF-8编码格式

字节

十六进制

格式

实际编码位

码点范围

1字节

0x0000-0x007F

0xxxxxxx

7

0 ~ 127

2字节

0x0080-0x07FF

110xxxxx 10xxxxxx

11

128 ~ 2047

3字节

0x0800-0xFFFF

1110xxxx 10xxxxxx 10xxxxxx

16

2048 ~ 65535

4字节

0x010000-0x10FFFF

11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

21

65536 ~ 2097151

补充:字节顺序(Byte Order)是计算机存储和表示多字节数据的方式,包括大端模式(Big Endian)和小端模式(Little Endian)。

  • Big Endian(大端模式):多字节数据中,高位字节(左边的位)存储在内存的低地址,低位字节(右边的位)存储在内存的高地址。
  • Little Endian(小端模式):多字节数据中,高位字节存储在内存的高地址,低位字节存储在内存的低地址。

Unicode 规范定义,每个文件开头加入表示编码顺序的字符: "零宽度非换行空格"(zero width no-break space),若是FE FF,则采用大端模式;若是FF FE,则采用小端模式。

一、多字节字符

C语言中基本数据类型之一的char类型(字符),一个英文字符占用一个字节,char * 表示的字符串中也是一个英文字符占用一个字节,包括结尾符'\0'(空字符)也只占用一个字节。

但其它语言的字符就不能只用一个字节表示了,例如:汉字,仅常用汉字就有3500多个,加上生僻汉字超过10万多个。而且汉字复杂,一个汉字可能2个字节、3个字节等。若一个字符占用多个字节,称为多字节字符。多字节字符也用char类型表示。

但用char类型即用多字节字符表示中文时可能出现乱码

C文件默认的编码方式一般是UTF-8(一个英文字符占1个字节, 一个汉字通常占3个字节)。而Windows编码方式一般是GBK,则中文在处理时可能出现乱码。

Windows(GBK编码)下若避免中文乱码,方法如下:

① 可在编译时使用GBK编码(与Windows编码方式一致): -fexec-charset=GBK。

(TERMINAL终端)

编译链接:gcc -fexec-charset=GBK -o 目标名 C程序文件名

再运行可执行文件:./目标名 

注:-finput-charset 指定C文件中的文字编码格式,-fexec-charset 指定编译之后的可执行文件的文字编码格式。默认情况下,gcc编译器认为编译前后的文字编码格式都是UTF-8。

// utf8.c
#include <stdio.h>
#include <locale.h>

int main(void)
{
    printf("你好\n");

    char *s1 = "你好";
    printf("%s\n", s1);
}

// TERMINAL 输入:
gcc -fexec-charset=GBK -o utf8 utf8.c
./utf8

// 结果:
你好
你好

 ② 使用头文件windows.h中的SetConsoleOutputCP设置成UTF-8 (使控制台输出UTF-8编码的字符)。

 注意:windows.h中的 SetConsoleOutputCP 和 locale中的setlocale 虽然设置效果不同,据说可以同时使用,但可能会使宽字符无法输出。需正确设置,并注意各自的影响效果。

#include <windows.h>

SetConsoleOutputCP(65001);
或者  SetConsoleOutputCP(CP_UTF8);
#include <stdio.h>
#include <locale.h>
#include <windows.h>

int main(void)
{
    SetConsoleOutputCP(65001);         // 或者 SetConsoleOutputCP(CP_UTF8);
    
    printf("你好\n");

    char *s1 = "你好";
    printf("%s\n", s1);
}

// 结果:
你好
你好

二、宽字符类型

C语言提供了宽字符,每个宽字符都是固定字节数,例如Windows中每个宽字符都是占2个字节,包括结尾符'\0'也是占两个字节。

宽字符用wchar_t类型表示。wchar_t的内存大小由编译器决定。Windows的编译器使用UTF-16编码方式,wchar_t的内存大小为2字节。大多数Linux使用UTF-32编码方式,wchar_t的内存大小大多为4字节。有了wchar_t就可以存储中文。

标准库limits.h中宏MB_LEN_MAX可查看多字节字符中的最大字节数标准库stdlib.h中宏MB_CUR_MAX查看当前字符集中单个字符的最大字节数(不得大于MB_LEN_MAX)。

#include <stdio.h>
#include <limits.h>
#include <stdlib.h>

int main(void)
{
    printf("wchar_t = %d bytes\n", sizeof(wchar_t));
    printf("MB_LEN_MAX: %d\n", MB_LEN_MAX);
    printf("MB_CUR_MAX: %d\n", MB_CUR_MAX);
}

// 结果:
wchar_t = 2 bytes
MB_LEN_MAX: 5
MB_CUR_MAX: 1

1、设置本地语言环境

若想要使用宽字符类型,需设置当前语言环境,确保系统和编译器支持。只有正确设置语言环境,才能正确处理数据,否则可能出现乱码。

可使用标准库locale.h中的setlocale函数设置当前语言环境。

setlocale:    char  *setlocale(itn category, const  char  *locale)

参数category:已命名的常量,指定设置影响的函数类型。

参数locale:切换到中文环境:Linux:"zh_CN.UTF-8"。Windows:"chs"或""。若locale为空,则根据环境变量值来设置,将程序环境切换为本地化环境。

返回:一个对应于区域设置的不透明的字符串。如果请求无效,则返回值是 NULL。

注意:Windows的locale不支持“UTF-8”,可使用GBK,即"chs"(Chinese_People's Republic of China.936)。最好locale使用空字符,切换到本地环境。

setlocale函数的参数category
LC_ALL包括下面的所有选项。
LC_COLLATE字符串比较。影响<string.h> strcoll 和 strxfrm 函数
LC_CTYPE字符分类和转换。影响所有字符函数
LC_MONETARY货币格式,针对 localeconv()。
LC_NUMERIC小数点分隔符,针对 localeconv()。
LC_TIME日期和时间格式,针对<time.h> strftime()。
LC_MESSAGES系统响应。
#include <stdio.h>
#include <locale.h>
#include <limits.h>
#include <stdlib.h>

int main(void)
{
    setlocale(LC_ALL, "");                // 设为本地化环境(Windows)

    printf("After: wchar_t = %d bytes\n", sizeof(wchar_t));    // wchar_t类型占用字节数
    printf("After: MB_LEN_MAX: %d\n", MB_LEN_MAX);             // 多字节字符最大字节数
    printf("After: MB_CUR_MAX: %d\n", MB_CUR_MAX);             // 当前字符集单个字符的最大字节数

    wchar_t *s = L"你好";
    printf("%ls\n", s);
    return 0;
}

// 结果:
After: wchar_t = 2 bytes
After: MB_LEN_MAX: 5    
After: MB_CUR_MAX: 2    
你好

 
2、宽字符使用

  • 使用宽字符类型时,字面量必须在引号前有前缀L。
  • 一个宽字符用单引号' ',一个宽字符字符串即多个宽字符(包括空字符)使用双引号" "。
  • 一个宽字符的占位符为%lc,宽字符字符串的占位符为%ls。
  • 宽字符字符串的结尾符,也占多个字节。
  • 使用头文件wchar.h中的 wprintf 输出宽字符,格式化字符串前必须有"L"。
  • Windows中也可以用 printf 输出宽字符。但 wprintf 和 printf 不能一起使用。
#include <stdio.h>
#include <locale.h>
#include <wchar.h>

int main(void)
{
    setlocale(LC_ALL, "");
    wchar_t c = L'赞';
    wchar_t *s = L"你好";
    wprintf(L"%lc %ls\n", c, s);
    return 0;
}

// 结果:
赞 你好
#include <stdio.h>
#include <locale.h>

int main(void)
{
    setlocale(LC_ALL, "");
    wchar_t c = L'赞';
    wchar_t *s = L"你好";
    printf("%lc %ls\n", c, s);
    return 0;
}

// 结果:
赞  你好

三、多字节字符和宽字符相关函数

1、mblen   判断一个多字节字符占多少字节数

mblen:     int mblen(const char *str, size_t n) 

参数:str是指向多字节字符的指针, 一般检查第一个字符,n是要判断的最大字节数。

返回:解析的第一个字符的字节数,空的返回0,无效或不完整的多字节字符返回-1。

#include <stdio.h>
#include <stdlib.h>
#include <locale.h>

int main(void)
{
    setlocale(LC_ALL, "");                   // 切换到本地环境
    
    char *s = "你好";   
    printf("%d\n", mblen(s, MB_CUR_MAX));    // "你"占用2个字节数

    char *c = "hi";
    printf("%d\n", mblen(c, MB_CUR_MAX));    // "h"占用1个字节数
    return 0;
}

// 结果:  (Windows)
2
1

2、wctomb、wcstombs     宽字符转为多字节字符

宽字符:每个字符固定字节,Windows通常2字节,Linux通常4字节。多字节字符:每个字符不同字节,可能1个字节、2个字节、3个字节等。

由于多字节字符相对占有更少的内存空间,速度相对更快,也为了能更好地兼容只支持多字节字符的系统和应用程序,因此有时候需要把宽字符转为多字节字符。

  • wctomb:将一个宽字符转为多字节字符。(wide character to multi byte)
  • wcstombs:将宽字符字符串转为多字节字符串。

wctomb:        int wctomb(char *str, wchar_t wchar)   

参数:str是指向存储多字节字符数组的指针。wchar是一个将要转换的宽字符。

返回:若str不为NULL,返回写入数组中的字节数,wchar不能表示为多字节序列时返回-1。若str为NULL,编码有移位状态返回非零,编码无状态返回零。

wcstombs:      size_t wcstombs(char *str, const wchar_t *pwcs, size_t n)  

参数:str是指向存储多字节字符串数组的指针。pwcs是将要转换的宽字符字符串,n是最大转换字节数。

返回:写入数组中的字节数,不包括结尾的空字符。若遇到一个无效的多字节字符,则返回-1。

#include <stdio.h>
#include <locale.h>
#include <stdlib.h>

int main(void)
{
    setlocale(LC_ALL, "");
    wchar_t c = L'赞';           // 一个宽字符,用单引号
    char s[16];
    int m = wctomb(s, c);        // 宽字符转为多字节字符
    printf("wctomb: %d bytes, s = %s\n", m, s);
    return 0;
}

// 结果:  (Windows)
wctomb: 2 bytes, s = 赞
#include <stdio.h>
#include <locale.h>
#include <stdlib.h>

int main(void)
{
    setlocale(LC_ALL, "");
    wchar_t ws[] = L"你好123";            // 宽字符字符串
    printf("wchar: %ls, size is %d bytes\n", ws, sizeof(ws));

    char s[16];
    int m = wcstombs(s, ws, 16);         // 宽字符字符串转为多字节字符串
    printf("char: %s, wcstombs: %d bytes\n", s, m);
    return 0;
}

// 结果:  (Windows)
wchar: 你好123, size is 12 bytes         // 包括结尾符
char: 你好123, wcstombs: 7 bytes         // 不包括结尾符

3、mbtowc、mbstowcs      多字节字符转为宽字符

多字节字符中每个字符占不同字节数,不利于数据处理,尤其是编码方式不同的情况。因此有时需将多字节字符转为固定字节的宽字符。

但当多字节字符转为宽字符时,若存在编码方式的差异,可能发生乱码。可以在编译时使用本地编码方式(例如Windows: -fexec-charset=GBK),也可以手写代码进行编码的转换。

  • mbtowc:将一个多字节字符转为宽字符。
  • mbstowcs :将多字节字符串转为宽字符字符串。

mbtowc:       int mbtowc(whcar_t *pwc, const char *str, size_t n)  

参数:pwc是指向宽字符对象的指针,str是指向一个将要转换的多字节字符的指针,n为最大转换字节数。

返回: 若str不为NULL,返回str消耗的字节数,空字节返回0,失败返回-1。若str为NULL,编码有移位状态返回非零,编码无状态返回零。

mbstowcs:       size_t mbstowcs(schar_t *pwcs, const char *str, size_t n)

参数:pwcs是指向宽字符对象的指针,str是指向将要转换的多字节字符串的指针,n为最大转换字节数。

返回: 转换的字符数,不包括结尾的空字符。若遇到一个无效的多字节字符,则返回-1。

// utf8.c
#include <stdio.h>
#include <stdlib.h>
#include <locale.h>

int main(void)
{ 
    setlocale(LC_ALL, "");

    char s[] = "赞";                              // 多字节字符
    printf("s = %s, size is %d bytes\n", s, sizeof(s));

    wchar_t *p = (wchar_t *)malloc(8);
    int k =  mbtowc(p, s, 8);                    // 多字节字符转为宽字符
    printf("p = %ls, mbtowc: %d bytes\n", p, k);
    free(p);                                     // 动态分配的内存使用完主动释放
    return 0;
}

// TERMINAL输入:
gcc -fexec-charset=GBK -o utf8 utf8.c
./utf8

// 结果:  (Windows)
s = 赞, size is 3 bytes             // 包括结尾符
p = 赞, mbtowc: 2 bytes             // 不包括结尾符
// utf8.c
#include <stdio.h>
#include <stdlib.h>
#include <locale.h>
#include <string.h>

int main(void)
{
    setlocale(LC_ALL, "");

    char s[] = "你好123";                       // 多字节字符
    printf("s = %s, size is %d bytes\n", s, sizeof(s));   
    // int x =  mbstowcs(NULL, s, 0);          // 获取转换后的长度

    wchar_t *p = (wchar_t *)malloc(16);
    int y =  mbstowcs(p, s, 16);               // 多字节字符串转为宽字符字符串
    printf("p = %ls, mbstowcs: %d characters\n", p, y);
    free(p);
    return 0;
}

// TERMINAL输入:
gcc -fexec-charset=GBK -o utf8 utf8.c
./utf8

//  结果:  (Windows)
s = 你好123, size is 8 bytes                // 包括结尾符
p = 你好123, mbstowcs: 5 characters         // 不包括结尾符

补充:

1、查看Windows计算机的当前字符集:

开始 --> 运行 -->  cmd --> 输入:chcp --> 在cmd窗口标题栏 右键属性 -->"选项"标签页 "当前活动页..."。注:65001(utf-8),936(GBK)。

修改Windows计算机的默认字符集:(慎重)

① 开始 --> 运行 -->  cmd --> 输入:chcp 65001。

②修改注册表。

 

查看 VSCode 当前字符集:

2、UTF-8编码与GBK编码的转换

UTF-8转为GBK:UTF-8编码 先转为 Unicode(Windows是UTF-16) 再转为GBK编码。

GBK转为UTF-8:GBK编码 先转为 Unicode(Windows是UTF-16) 再转为UTF-8编码。

注:UTF-8是Unicode字符集的编码方式之一,Unicode和GBK是两个不同的字符集,GBK既是字符集也是编码。

  • 8
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值