STL--容器的综合应用:文本查询程序
一、查询程序的设计
设计程序的一个良好习惯是首先将程序所涉及的操作先列出来,明确需要提供的操作有助于建立需要的数据结构和实现这些行为。从需求出发,我们的程序需要支持以下任务:
1)它必须允许用户指明要处理的文件名字。程序将存储该文件的内容,以便输出每个单词所在的原始行。
2)它必须将每一行分解为各个单词,并记录每个单词所在的所有行。在输出行号时,应保证以升序输出,并且不重复。
3)对特定单词的查询将返回出现该单词的所有行的行号。
4)输出某单词所在的行文本时,程序必须能根据给定的行号从输入文件中获取相应的行。
1、数据结构
设计一个简单的TextQuery类来实现这个程序:
1)使用一个vector<string>对象来存储整个输入文件。输入文件的每一行是该 vector对象的一个元素。因而,在希望输出某一行时,只需以行号为下标获取该行所在的元素即可。
2)将每个单词所在的行号存储在一个set容器对象中。使用set就可确保每行只有一个条目,而且行号将自动按升序排列。
3)使用一个map容器将每个单词与一个set容器对象关联起来,该set容器对象记录此单词所在的行号。
2、操作
对于类还要求有良好的接口。然而,一个重要的设计策略首先要确定:查询函数需返回存储一组行号的set对象。这个返回类型应该如何设计呢?
事实上,查询的过程相当简单:使用下标访问map对象获取关联的set对象即可。唯一的问题是如何返回所找到的set对象。安全的设计方案是返回该set对象的副本。但如此一来,就意味着要复制set中的每个元素。如果处理的是一个相当庞大的文件,则复制set对象的代价会非常昂贵。其他可行的方法包括:返回一个pair对象,存储一对指向set中元素的迭代器;或者返回set对象的 const引用。为简单起见,我们在这里采用返回副本的方法,但注意:如果在实际应用中复制代价太大,需要新考虑其实现方法。
下面是在vs2010中实现的完成程序代码和相关注释:
#include <iostream>
#include <fstream>
#include <sstream>
#include <string>
#include <map>
#include <set>
#include <vector>
using namespace std;
class TextQuery
{
public:
typedef vector<string> :: size_type lin_no;
void read_file(ifstream &is)
{
store_file(is);
build_map();
}
set<lin_no> run_query(const string &) const; //<输入需要查询的字符串,返回其所在的行号
string text_line(lin_no) const; //<形参为一个行号,返回输入文本中该行号对应的文本行
private:
void store_file(ifstream &);
void build_map();
vector<string> line_of_text; //<存储文本中的每一行文本
map<string,set<lin_no>> word_map; //<字符串对应的行号集合
};
void TextQuery::store_file(ifstream &is)
{
string textline;
while (getline(is,textline))
{
line_of_text.push_back(textline);
}
}
void TextQuery :: build_map()
{
for (lin_no line_num = 0; line_num != line_of_text.size(); line_num++)
{
istringstream line(line_of_text[line_num]);
string word;
while (line >> word)
{
word_map[word].insert(line_num); //<map第一个元素是word,第二个元素是一个set容器
}
}
}
/*将word用做 map容器的下标。如果word在 word_map容器对象中不存在,
那么下标操作符将该word添加到此容器中,并将其关联的值初始化为空的set。
不管是否添加了word,下标运算都返回一个set对象,
然后调用insert函数在该 set对象中添加当前行号。
如果某个单词在同一行中重复出现,那么insert函数的调用将不做任何操作。*/
set<TextQuery::lin_no> TextQuery::run_query(const string & queryWord) const
{
map<string,set<lin_no>>::const_iterator loc = word_map.find(queryWord);
if (loc == word_map.end())
{
return set<lin_no>(); //<如果没有查询到,返回一个空的set集合
}
else
{
return loc->second; //<如果查询到,那么返回对应元素的set集合行号
}
}
string TextQuery::text_line(lin_no line) const
{
if (line < line_of_text.size())
{
return line_of_text[line];
}
throw out_of_range("line number out of range");
}
string make_plural(set<TextQuery::lin_no> ::size_type size,const string &begin,const string &ends)
{
return (size <= 1 ? begin : begin + ends);
}
void print_results(const set<TextQuery::lin_no> &locs,
const string &sought,
const TextQuery &file)
{
typedef set<TextQuery::lin_no> line_nums;
line_nums::size_type size = locs.size();
cout << "\n" << sought << " occurs "
<< size << " "
<< make_plural(size,"time","s") << endl;
line_nums::iterator iter = locs.begin();
while (iter != locs.end())
{
cout << "\t(line "
<< (*iter) + 1 << ")"
<< file.text_line(*iter) << endl;
}
}
int main(int argc, char ** argv)
{
ifstream Infile;
if (argc != 2 || argv[1] == NULL)
{
cout << "The Input file can't open\n"<<endl;
return 0;
}
TextQuery tq;
tq.read_file(Infile);
while (1)
{
cout << "Enter word to look for,or q/Q to quit";
string s;
cin>>s;
if (!cin || s == "q" || s == "Q")
{
break;
}
set<TextQuery::lin_no> locs = tq.run_query(s);
print_results(locs,s,tq);
}
return 1;
}