关于GBK编码及C语言中文输出问题

关于GBK编码及C语言中文输出问题

引入

在使用C语言进行输出时,我们可以发现汉字是占两个字节的,如果想打印出汉字需要连续打印两个字节,如果仅仅打印一个汉字字节会出现输出为空的情况。如此情况的产生是因为汉字的编码关系。目前应用最为灵活的utf-8,在很多编译器中并不是默认的编码方式,乃至我们的电脑中,选择中文区域后我们的汉字编码为GBK编码。

GB2312及GBK编码

GB2312是我国的第一种汉字编码。尽管ASCII 码成功的对西方字符编码的标准进行了统一,但作为7位编码,表示范围有限(0~127),就算是8位ASCII 码,高位的128个字符作为扩展,也都是用来存放英文的制表符,部分音标字符等其它符号。常用的汉字有几千个,为了解决汉字编码问题,GB2312应运而生。

GB2312采用区位码进行设计,将编码表分为94个区,每个区94个位,每个位放置1个字符。即使用双字节对一个汉字进行编址,前一个字节代表这个汉字在编码表的区号,后一个字节代表这个汉字在区中的位号。一般编码方式为0xA0 + 区号,0xA0 + 位号,汉字的编码范围是0xB0A1~0xF7FE

在区号中01-09是符号区,16-87是汉字区,10-15及88-94是未定义的空白区。

GB2312满足了基本的汉字编码需要,但未收录繁体字和生僻字,为了更好处理人名和古汉语,GBK横空出世,是GB2312的超集,相同字符编码相同,收录字符更多,更广。

这里提供汉字与国际码转换查询网:https://www.qqxiuzi.cn/bianma/guobiaoma.php

正确输出及中文判断

这里以汉字【加】为例,对应编码为:

在这里插入图片描述

根据前文介绍,BC为区号,D3为位号。转换为对应的十进制:BC(188) D3(211)

在这里插入图片描述

当我们把两个字符连续打印时,如果第一个字符是数值大于ASCII码的最高范围127,则会将其视为其它编码格式,在正确的区位号下,编译器识别其为GBK,从而输出汉字。

在这里插入图片描述

如上图所示,字符数值符合ASCII码范围,则按照ASCII码进行解析。

在这里插入图片描述

当我们将中文字符编码分开输出时,由于字符数值高于ASCII码又违背了GBK编码双字节的编码规则,此时无法正常输出。

如何判断是否为中文字符

需求:输入一串文字,将文字中的半角字符剔除,将全角字符输出

【全角】:一个字符占两个字节

【半角】:一个字符占一个字节

根据需求,可以发现我们需要的是将汉字输出,其它剔除。上文提到,汉字的区号是0xA0 + 区号,因此只要第一个字符大于0xA0,此时顺序输出下一个字符即可。

#include <stdio.h>
#include <stdlib.h>

#define TRUE 1
#define FALSE 0 


//	@名称:is2byte函数   			
//	@用途:判断是否为全角文字的第一个字节 	

int is2byte(int ch){
	if(ch > 0xa0){
		return TRUE;	/*2字节文字(全角)*/
	}
	else
		return FALSE;	/*1字节文字(半角)*/ 
}

int main(){
	int ch;
	while((ch = getchar())!=EOF){
		if(is2byte(ch) == TRUE){
			putchar(ch);
			putchar(getchar());
		}
	}
	
	return 0;
} 

此篇博客是博主在遇到问题,搜索资料后的简单记录,博主才疏学浅,如果博文出现错误请及时指出,也请各位谅解!


参考博文:https://blog.csdn.net/itplus/article/details/15341009

### 回答1: C语言是一种普遍使用的编程语言,它提供了一系列的函数和库来进行各种操作。在默认情况下,C语言输出是基于本地环境字符集的。 GBK是一种中文字符集,它兼容ASCII字符集,同时也包含了大量的汉字和其他中文字符。如果需要在C语言输出GBK编码的字符,我们需要确保程序环境已经设置为支持GBK。 在Windows系统中,通常使用的是GB2312编码或者是GBK编码。可以使用Windows API函数来进行GBK编码和解码的转换。例如,可以使用WideCharToMultiByte函数将宽字符转换为多字节字符,输出GBK编码的字符。 在其他操作系统上,可能需要使用不同的方法来支持GBK编码输出。可以使用相关的库来实现GBK编码的转换和输出。例如,可以使用GNU iconv库来进行字符编码的转换。 总之,C语言本身并不直接支持输出GBK编码的字符,需要借助相关的函数和库来实现GBK编码转换和输出。具体的实现方式和方法可能会因操作系统和编译环境的不同而有所差异。 ### 回答2: C语言本身是一种跨平台的编程语言,它并没有直接提供输出 gbk 编码的函数或特定库。不过,可以通过以下步骤来实现输出 gbk 编码的功能。 首先,需要使用 gbk 编码的文本字符串保存在一个 gbk 文件中,确保该文件采用 gbk 编码格式保存。 然后,使用 C 语言中的文件操作函数,如 fopen、fread、fclose,打开 gbk 文件,并读取其中的内容。 接着,可以使用 C 语言的字符串操作函数,如 strlen 和 printf,将读取的内容输出到终端或其他适当的输出设备上。 在输出之前,可以使用 iconv 函数对读取的内容进行编码转换,将其从 gbk 编码转换为程序默认的编码格式,然后再输出。 需要注意的是,在进行编码转换时,需要确保系统中已经安装了 iconv 库,并正确引入相关头文件。 当然,也可以使用第三方库来实现输出 gbk 编码的功能,如 libiconv 或具有本地化功能的库,如 ICU。这些库提供了更多的接口和函数,可以更方便地实现编码转换和输出 gbk 编码的功能。 总而言之,虽然 C 语言本身并没有直接支持输出 gbk 编码的功能,但通过使用文件操作函数、字符串操作函数和编码转换函数,以及第三方库的帮助,我们仍然可以实现在 C 语言中输出 gbk 编码的功能。 ### 回答3: C语言本身是一种通用的编程语言,并没有直接支持输出 GBK 编码的特殊功能。GB2312 和 GBK中文字符编码标准,在 C 语言中,字符串通常以 ASCII 编码进行处理和输出。 然而,我们可以通过一些额外的工具和库来实现输出 GBK 编码的字符串。 一种常见的方法是使用操作系统提供的函数,如 Windows 上的 `WideCharToMultiByte` 函数,通过将 Unicode 字符串转换为 GBK 编码的字符串来输出。 另一种方法是使用第三方库,如 iconv 库或 libiconv 库,它们提供了用于字符串编码转换的函数,可以实现将 Unicode 字符串转换为 GBK 编码的功能。 以下是一个简单的示例代码,演示如何通过 iconv 库将 Unicode 字符串转换为 GBK 编码,并输出 GBK 编码的字符串: ```c #include <stdio.h> #include <stdlib.h> #include <iconv.h> int main() { iconv_t cd; char *utf8 = "你好,世界!"; char *gbk = (char *)malloc(100); // 打开转换句柄 cd = iconv_open("GBK", "UTF-8"); // 进行字符编码转换 iconv(cd, &utf8, (size_t*)&cd, &gbk, (size_t*)&cd); // 输出 GBK 编码的字符串 printf("GBK编码: %s\n", gbk); // 关闭转换句柄 iconv_close(cd); return 0; } ``` 需要注意的是,以上代码使用的是 iconv 库,需要先安装该库并链接到你的程序中,具体使用的方法可以参考相应的文档。 综上所述,虽然 C 语言本身并不能直接输出 GBK 编码的字符串,但通过使用操作系统提供的函数或第三方库,我们仍然能够实现这样的功能。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值