统计英文文本中出现频率最高的10个单词

 在v_JULY_v的文章中找到了这个问题的解法后用C++实现了一下,发现C++的代码非常的简洁。

主要用到了标准库中的hash_map,优先级队列priority_queue。

        算法的思路是:

  1. 从头到尾遍历文件,从文件中读取遍历到的每一个单词。
  2. 把遍历到的单词放到hash_map中,并统计这个单词出现的次数。
  3. 遍历hash_map,将遍历到的单词的出现次数放到优先级队列中。
  4. 当优先级队列的元素个数超过k个时就把元素级别最低的那个元素从队列中取出,这样始终保持队列的元素是k个。
  5. 遍历完hash_map,则队列中就剩下了出现次数最多的那k个元素。

      具体实现和结果如下:

//出现次数最多的是个单词

[cpp]  view plain copy
  1. //出现次数最多的是个单词  
  2. void top_k_words()  
  3. {  
  4.     timer t;  
  5.     ifstream fin;  
  6.     fin.open("modern c.txt");  
  7.     if (!fin)  
  8.     {  
  9.         cout<<"can nont open file"<<endl;  
  10.     }  
  11.     string s;  
  12.     hash_map<string,int> countwords;  
  13.     while (true)  
  14.     {  
  15.         fin>>s;  
  16.         if (fin.eof())  
  17.         {  
  18.             break;  
  19.         }  
  20.         countwords[s]++;  
  21.     }  
  22.     cout<<"单词总数 (重复的不计数):"<<countwords.size()<<endl;  
  23.     priority_queue<pair<int,string>,vector<pair<int,string>>,greater<pair<int,string>>> countmax;  
  24.     for(hash_map<string,int>::const_iterator i=countwords.begin();  
  25.         i!=countwords.end();i++)  
  26.     {  
  27.         countmax.push(make_pair(i->second,i->first));  
  28.         if (countmax.size()>10)  
  29.         {  
  30.             countmax.pop();  
  31.         }  
  32.     }  
  33.     while(!countmax.empty())  
  34.     {  
  35.         cout<<countmax.top().second<<" "<<countmax.top().first<<endl;  
  36.         countmax.pop();  
  37.     }  
  38.     cout<<"time elapsed "<<t.elapsed()<<endl;  
  39. }  

统计一本英文出现频率最高10个单词,可以按照以下步骤进行: 1. 首先,将书的文本内容读入程序,可以使用Python的open()函数打开文件并读取内容。 2. 对文本内容进行预处理,包括去掉标点符号、转换成小写等。 3. 将文本内容分割成单词,可以使用Python的split()函数。 4. 统计每个单词文本出现的次数,可以使用Python的字典来实现。遍历文本每个单词,将其作为字典的键,如果该键不存在,则添加键值对,值为1;如果该键存在,则将对应的值加1。 5. 对字典按值进行排序,可以使用Python的sorted()函数,设置按值降序排序。 6. 输出出现频率最高10个单词,可以遍历排序后的字典,输出前10个键即可。 下面是Python代码示例: ```python import string # 读取文本内容 with open('book.txt', 'r') as f: text = f.read() # 预处理文本内容 text = text.translate(str.maketrans('', '', string.punctuation)) text = text.lower() # 分割文本内容成单词列表 words = text.split() # 统计每个单词出现的次数 freq_dict = {} for word in words: if word not in freq_dict: freq_dict[word] = 1 else: freq_dict[word] += 1 # 按值降序排序字典 sorted_dict = dict(sorted(freq_dict.items(), key=lambda x: x[1], reverse=True)) # 输出出现频率最高10个单词 for word, freq in sorted_dict.items(): print(word, freq) if len(sorted_dict) == 10: break ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值