C++基础（十六）字符编码多字节字符集字符串长度

最新推荐文章于 2023-05-23 21:37:47 发布

yedawei_1

最新推荐文章于 2023-05-23 21:37:47 发布

阅读量725

点赞数 1

分类专栏： C++基础文章标签：字符串 strlen string

本文链接：https://blog.csdn.net/yedawei_1/article/details/113757363

版权

C++基础专栏收录该内容

19 篇文章 28 订阅

订阅专栏

上一篇文章介绍了sizeof的用法，它无法计算出字符串的长度，想要知道字符串的字节总数，应该怎么办呢？

对于char*的字符串，用strlen函数。wchar_t，考虑到篇幅长度，另一篇文章再介绍。

先看下面代码(visual stadio 2019, 64位, unicode字符集)：

#include <iostream>

int main()
{
	using namespace std;

	const char* pStr_char_Englist = "English";
	cout << "char*_en：" << strlen(pStr_char_Englist) << std::endl;

	const char* pStr_char_Chinese = "中文";
	cout << "char*_zn：" << strlen(pStr_char_Chinese) << std::endl;

	char arr[] = "English中文";	
	cout << "array_char：" << strlen(arr) << std::endl;

	system("pause");
	return 0;
}

代码很简短，打印一个纯英文的字符串长度，再打印一个纯中文的字符串长度，接着打印一个中英混合的字符数组。

执行结果如下：

逐行介绍：

第一行strlen(pStr_char_Englist)输出7很好理解，"English"一共7个字母，长度为7，表示7个字节。

第二行strlen(pStr_char_Chinese)输出4，也能理解，一个中文占两个字节，这里两个汉字，占4个字节，似乎没问题。

第三行中英混合，最后输出的是7+4=11，也没问题。

所以，从上面可以看出来，strlen返回的也不是字符串中字符的个数，而是字节总数。如果字符串有中文，或者是中英混合，根本无法通过strlen来获取准确的字符个数。

为什么中文占两个字节，而英文字母只占一个字节呢？这就要从大名鼎鼎的ASCII码说起，关于ASCII码的来由，此处不赘述，请自行搜索。

众所周知，一个字节占8个比特位，每个比特位有0和1两种状态，所以一个字节就有2的8次方即256种组合，也就是256种可能。如果将这些可能编号，可以是从0~255，也可以从-126~127。

ASCII码，乃至计算机，都是西方国家设计的。所以里面很多的设定，都是针对英文的。比如这个ASCII的字节编码，英文够用，但对中文来说，远远不够，怎么办呢？

仔细研究一下ASCII码，会发现，里面只编写了0~127这128个数字对应的字节，129~255(-126~-1)这128个数字，是空白的。于是先辈们就从这上面想办法，一个字节的编码，如果小于128，就是对应的ASCII码的字符(也可能是大于0,)；如果大于等于128(也可能是小于0)，则与下一个字节一起组成一个中文的汉字。所以，对于英文来说，其实就只占了一个字节；但对于中文来说，是两个字节一起拼起来的，这就是一个中文占两个字节的原因。

具体的汉字编码，非常复杂，此处不展开。

如果想要获取中英混合的字符串中字符个数怎么办呢？用std::string行吗？可以试一下，代码如下：

#include <iostream>
#include <string>

int main()
{
	const char* pStr = "Engl中文ish";
	std::cout << "strlen(pStr):" << strlen(pStr) << std::endl;

	std::string strValue(pStr);
	std::cout << "string.size(): " << strValue.size() << std::endl;
	std::cout << "string.length(): " << strValue.length() << std::endl;
	
	system("pause");
	return 0;
}

执行结果如下：

很可惜，仍然返回是所占字节数，而不是字符个数。

可以从上面字符编码去考虑，英文的编码是0~127，那在这个范围之外的，则肯定与下一个字节一起进行编码。代码如下：

#include <iostream>

int GetLength(const char* pStr)
{
	size_t iSize = strlen(pStr);
	int iCount = 0;
	for (int i = 0; i < iSize; ++i, ++iCount)
	{
		int i1 = int(*(pStr + i));
		if (i1 > 127 || i1 < 0)
			++i;
	}
	return iCount;
}

int main()
{
	using namespace std;

	const char* pStr1 = "正在学习";
	std::cout << pStr1 << "：" << GetLength(pStr1) << std::endl;

	const char* pStr2 = "I Love C++";
	std::cout << pStr2 << "：" << GetLength(pStr2) << std::endl;

	const char* pStr3 = "I 正在Love学习 C++";
	std::cout << pStr3 << "：" << GetLength(pStr3) << std::endl;

	system("pause");
	return 0;
}

执行结果如下：

可以统计中英文混合使用的字符个数。

有关字符、字符集和编码的问题，后面会再写几篇文章说明，这篇只是先做一个基础知识的铺垫。

yedawei_1

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
C++基础（十六）字符编码多字节字符集字符串长度

上一篇文章介绍了sizeof的用法，它无法计算出字符串的长度，想要知道字符串的字节总数，应该怎么办呢？对于char*的字符串，用strlen函数。wchar_t，考虑到篇幅长度，另一篇文章再介绍。先看下面代码(visual stadio 2019, 64位, unicode字符集)：#include <iostream>int main(){ using namespace std; const char* pStr_char_Englist = "English";
复制链接

扫一扫