如何分割给定的一行string中的单词
字符串算法题中经常会出现一种题型,即给定一行字符串,要分割出一整个串中的单词,当然串中是有字母、空格、标点符号。比如
Bob hit a ball, the hit BALL flew far after it was hit.
该串字符串,将大写字母替换为相应的小写字母后,单词有bob、hit、a、ball、the、flew、far、after、it、was。
如何分割,当然了这种分割是在给的已经是一个整串,而不是在输入时分割,如果是输入时分割,则可以使用cin以空格、回车、换行作为分隔符来提取单独的词,再去掉词后的标点即可。
但是在已经给定了一整个串的基础上,如何分割呢。
代码如下
for(int i=0;i<para.size(); ){//注意点1
while(i<para.size()&&(!((para[i]>='a'&¶[i]<='z')||(para[i]>='A'&¶[i]<='Z')))) i++;//注意点2
if(i<para.size()){//注意点3
string temp;
char ch;
while(i<para.size()&&((para[i]>='a'&¶[i]<='z')||(para[i]>='A'&¶[i]<='Z'))){//注意点4
temp+=para[i];
i++;//注意点5
}
注意点
1、for循环中不要有第三个控制变量的语句
2、上来一个while循环,用于跳过串中非字母的元素。此步骤之后,para[i]一定是一个字母元素。
3、第一个while之后,一定要判断当前i是否已经到达了para的边界,如果是的话,直接退出for循环,已经遍历完整个串了
4、第二个while循环是用于找出一个单独的单词,不断的将para[i] 加入到temp中,等到不符合第二个while循环的条件时,即temp中已经保存了一个单独的单词了。
5、在第二个while循环中一定要进行i++;当然了,第一个while循环中也要有i++;
6、注意三个循环各自的目的,以及各自的判断条件。最重要的是,i++操作,一定不要放在while判断语句中。
2021/1/30更新
今天做题时遇到一个问题力扣1078. Bigram 分词,得到一整行字符中的单词,单词之间用空格分隔,而且不存在标点符号,当然可以使用上述常规的方法完成,但是看到评论区有一个解使用了库函数istringstream【2022/6/12更新,istringstream不是库函数,是类】,学习了一下。
参考文档
C++引入了ostringstream、istringstream、stringstream这三个类,要使用他们创建对象就必须包含< sstream >这个头文件。
istringstream类用于执行C++风格的串流的输入操作。
ostringstream类用于执行C风格的串流的输出操作。
strstream类同时可以支持C风格的串流的输入输出操作。
istringstream提取string类型的单词
istringstream的构造函数原形如下:
istringstream::istringstream(string str);
它的作用是从string对象str中读取字符。
使用示例:
#include<iostream>
#include<sstream>// 必须包含这个头文件
#include<string>
using namespace std;
int main()
{
string str="Bob hit a ball, the hit BALL flew far after it was hit.";//原串
istringstream temp(str);//注意写法,使用str初始化istringstream对象temp
string s;
while(temp>>s)//两个大于号 ,读取结束时,temp>>s 返回false
{
cout<<s<<endl;
}
return 0;
}
//运行结果
Bob
hit
a
ball,
the
hit
BALL
flew
far
after
it
was
hit.
可以观察到,确实将原串中的单词单独的提取出来了,但是仅是将空格分隔的单词提取出来了,标点符号并没有去除,而是作为了单词的一部分。但是也是挺实用的。
可以在类似leetcode这种已经给了数据的平台中直接使用istringstream来提取原始串中使用空格分隔的单词,也可以在pat这种给定数据自己读入的平台上先使用getline(cin,str)来读取一整行给str,之后再使用istringstream。
一定注意使用getline之前确保在数据缓冲区中没有多余的空格或者换行存在。(血的教训)
istringstream提取int数据
将一整行int数据作为string使用getline( )读入,之后
#include <iostream>
#include <sstream>
#include <string>
using namespace std;
int main()
{
string str="54 87 99 28 56";
//getline(cin,str);//当然可以使用这句话读入str
istringstream nums(str);
int n;
while(nums>>n)
{
cout<<n<<endl;
}
return 0;
}
//运行结果
54
87
99
28
56
而且当str中包含其余符号时,在分割时,是只读取到标点符号位置处的
#include <iostream>
#include <sstream>
#include <string>
using namespace std;
int main()
{
string str="54 8,7 99 28 56";
//getline(cin,str);
istringstream nums(str);
int n;
while(nums>>n)
{
cout<<n<<endl;
}
return 0;
}
//运行结果
54
8
确实是只读取到了标点符号位置处