上一篇文章介绍了sizeof的用法,它无法计算出字符串的长度,想要知道字符串的字节总数,应该怎么办呢?
对于char*的字符串,用strlen函数。wchar_t,考虑到篇幅长度,另一篇文章再介绍。
先看下面代码(visual stadio 2019, 64位, unicode字符集):
#include <iostream>
int main()
{
using namespace std;
const char* pStr_char_Englist = "English";
cout << "char*_en:" << strlen(pStr_char_Englist) << std::endl;
const char* pStr_char_Chinese = "中文";
cout << "char*_zn:" << strlen(pStr_char_Chinese) << std::endl;
char arr[] = "English中文";
cout << "array_char:" << strlen(arr) << std::endl;
system("pause");
return 0;
}
代码很简短,打印一个纯英文的字符串长度,再打印一个纯中文的字符串长度,接着打印一个中英混合的字符数组。
执行结果如下:
逐行介绍:
第一行strlen(pStr_char_Englist)输出7很好理解,"English"一共7个字母,长度为7,表示7个字节。
第二行strlen(pStr_char_Chinese)输出4,也能理解,一个中文占两个字节,这里两个汉字,占4个字节,似乎没问题。
第三行中英混合,最后输出的是7+4=11,也没问题。
所以,从上面可以看出来,strlen返回的也不是字符串中字符的个数,而是字节总数。如果字符串有中文,或者是中英混合,根本无法通过strlen来获取准确的字符个数。
为什么中文占两个字节,而英文字母只占一个字节呢?这就要从大名鼎鼎的ASCII码说起,关于ASCII码的来由,此处不赘述,请自行搜索。
众所周知,一个字节占8个比特位,每个比特位有0和1两种状态,所以一个字节就有2的8次方即256种组合,也就是256种可能。如果将这些可能编号,可以是从0~255,也可以从-126~127。
ASCII码,乃至计算机,都是西方国家设计的。所以里面很多的设定,都是针对英文的。比如这个ASCII的字节编码,英文够用,但对中文来说,远远不够,怎么办呢?
仔细研究一下ASCII码,会发现,里面只编写了0~127这128个数字对应的字节,129~255(-126~-1)这128个数字,是空白的。于是先辈们就从这上面想办法,一个字节的编码,如果小于128,就是对应的ASCII码的字符(也可能是大于0,);如果大于等于128(也可能是小于0),则与下一个字节一起组成一个中文的汉字。所以,对于英文来说,其实就只占了一个字节;但对于中文来说,是两个字节一起拼起来的,这就是一个中文占两个字节的原因。
具体的汉字编码,非常复杂,此处不展开。
如果想要获取中英混合的字符串中字符个数怎么办呢?用std::string行吗?可以试一下,代码如下:
#include <iostream>
#include <string>
int main()
{
const char* pStr = "Engl中文ish";
std::cout << "strlen(pStr):" << strlen(pStr) << std::endl;
std::string strValue(pStr);
std::cout << "string.size(): " << strValue.size() << std::endl;
std::cout << "string.length(): " << strValue.length() << std::endl;
system("pause");
return 0;
}
执行结果如下:
很可惜,仍然返回是所占字节数,而不是字符个数。
可以从上面字符编码去考虑,英文的编码是0~127,那在这个范围之外的,则肯定与下一个字节一起进行编码。代码如下:
#include <iostream>
int GetLength(const char* pStr)
{
size_t iSize = strlen(pStr);
int iCount = 0;
for (int i = 0; i < iSize; ++i, ++iCount)
{
int i1 = int(*(pStr + i));
if (i1 > 127 || i1 < 0)
++i;
}
return iCount;
}
int main()
{
using namespace std;
const char* pStr1 = "正在学习";
std::cout << pStr1 << ":" << GetLength(pStr1) << std::endl;
const char* pStr2 = "I Love C++";
std::cout << pStr2 << ":" << GetLength(pStr2) << std::endl;
const char* pStr3 = "I 正在Love学习 C++";
std::cout << pStr3 << ":" << GetLength(pStr3) << std::endl;
system("pause");
return 0;
}
执行结果如下:
可以统计中英文混合使用的字符个数。
有关字符、字符集和编码的问题,后面会再写几篇文章说明,这篇只是先做一个基础知识的铺垫。