C++基础(十六)字符编码 多字节字符集 字符串长度

上一篇文章介绍了sizeof的用法,它无法计算出字符串的长度,想要知道字符串的字节总数,应该怎么办呢?

对于char*的字符串,用strlen函数。wchar_t,考虑到篇幅长度,另一篇文章再介绍。

先看下面代码(visual stadio 2019, 64位, unicode字符集):

#include <iostream>

int main()
{
	using namespace std;

	const char* pStr_char_Englist = "English";
	cout << "char*_en:" << strlen(pStr_char_Englist) << std::endl;

	const char* pStr_char_Chinese = "中文";
	cout << "char*_zn:" << strlen(pStr_char_Chinese) << std::endl;

	char arr[] = "English中文";	
	cout << "array_char:" << strlen(arr) << std::endl;

	system("pause");
	return 0;
}

代码很简短,打印一个纯英文的字符串长度,再打印一个纯中文的字符串长度,接着打印一个中英混合的字符数组。

执行结果如下:

逐行介绍:

第一行strlen(pStr_char_Englist)输出7很好理解,"English"一共7个字母,长度为7,表示7个字节。

第二行strlen(pStr_char_Chinese)输出4,也能理解,一个中文占两个字节,这里两个汉字,占4个字节,似乎没问题。

第三行中英混合,最后输出的是7+4=11,也没问题。

所以,从上面可以看出来,strlen返回的也不是字符串中字符的个数,而是字节总数。如果字符串有中文,或者是中英混合,根本无法通过strlen来获取准确的字符个数。

为什么中文占两个字节,而英文字母只占一个字节呢?这就要从大名鼎鼎的ASCII码说起,关于ASCII码的来由,此处不赘述,请自行搜索。

众所周知,一个字节占8个比特位,每个比特位有0和1两种状态,所以一个字节就有2的8次方即256种组合,也就是256种可能。如果将这些可能编号,可以是从0~255,也可以从-126~127。

ASCII码,乃至计算机,都是西方国家设计的。所以里面很多的设定,都是针对英文的。比如这个ASCII的字节编码,英文够用,但对中文来说,远远不够,怎么办呢?

仔细研究一下ASCII码,会发现,里面只编写了0~127这128个数字对应的字节,129~255(-126~-1)这128个数字,是空白的。于是先辈们就从这上面想办法,一个字节的编码,如果小于128,就是对应的ASCII码的字符(也可能是大于0,);如果大于等于128(也可能是小于0),则与下一个字节一起组成一个中文的汉字。所以,对于英文来说,其实就只占了一个字节;但对于中文来说,是两个字节一起拼起来的,这就是一个中文占两个字节的原因。

具体的汉字编码,非常复杂,此处不展开。

如果想要获取中英混合的字符串中字符个数怎么办呢?用std::string行吗?可以试一下,代码如下:

#include <iostream>
#include <string>

int main()
{
	const char* pStr = "Engl中文ish";
	std::cout << "strlen(pStr):" << strlen(pStr) << std::endl;

	std::string strValue(pStr);
	std::cout << "string.size(): " << strValue.size() << std::endl;
	std::cout << "string.length(): " << strValue.length() << std::endl;
	
	system("pause");
	return 0;
}

执行结果如下:

很可惜,仍然返回是所占字节数,而不是字符个数。

可以从上面字符编码去考虑,英文的编码是0~127,那在这个范围之外的,则肯定与下一个字节一起进行编码。代码如下:

#include <iostream>

int GetLength(const char* pStr)
{
	size_t iSize = strlen(pStr);
	int iCount = 0;
	for (int i = 0; i < iSize; ++i, ++iCount)
	{
		int i1 = int(*(pStr + i));
		if (i1 > 127 || i1 < 0)
			++i;
	}
	return iCount;
}

int main()
{
	using namespace std;

	const char* pStr1 = "正在学习";
	std::cout << pStr1 << ":" << GetLength(pStr1) << std::endl;

	const char* pStr2 = "I Love C++";
	std::cout << pStr2 << ":" << GetLength(pStr2) << std::endl;

	const char* pStr3 = "I 正在Love学习 C++";
	std::cout << pStr3 << ":" << GetLength(pStr3) << std::endl;

	system("pause");
	return 0;
}

执行结果如下:

可以统计中英文混合使用的字符个数。

有关字符、字符集和编码的问题,后面会再写几篇文章说明,这篇只是先做一个基础知识的铺垫。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值