经典编程面试题--大文件找重复内容

借雨醉东风

于 2024-10-01 00:00:00 发布

阅读量571

点赞数 14

分类专栏：程序员宝典--常用代码分享文章标签：职场和发展

本文链接：https://blog.csdn.net/weixin_60437218/article/details/142618617

版权

程序员宝典--常用代码分享专栏收录该内容

98 篇文章 1 订阅

订阅专栏

关注我，持续分享逻辑思维&管理思维&面试题；可提供大厂面试辅导、及定制化求职/在职/管理/架构辅导；

推荐专栏《10天学会使用asp.net编程AI大模型》，目前已完成所有内容。一顿烧烤不到的费用，让人能紧跟时代的浪潮。从普通网站，到公众号、小程序，再到AI大模型网站。干货满满。学成后可接项目赚外快，绝对划算。不仅学会如何编程，还将学会如何将AI技术应用到实际问题中，为您的职业生涯增添一笔宝贵的财富。

-------------------------------------正文----------------------------------------

有一千万条短信，有重复，以文本文件的形式保存，一行一条，有重复。请用5分钟时间，找出重复出现最多的前10条。

-------------------------------------答案----------------------------------------

要在有限的时间内（如5分钟）处理一千万条短信并找出重复出现最多的前10条，我们需要采用高效的算法和数据结构。由于短信数量巨大，直接将所有短信加载到内存中可能会导致内存不足。因此，我们可以考虑使用外部排序（如多路归并排序）和哈希表（或类似结构）来优化存储和查找效率。

但是，考虑到时间限制和编程复杂性，我们可以采用一种更实际的方法：使用内存中的哈希表来记录每个短信的出现次数，并在哈希表满或处理完所有短信后，将哈希表中的数据写入外部文件（如临时文件），然后对这些数据进行排序以找出重复次数最多的前10条。

然而，为了简化实现并尽可能减少编程时间，这里我将提供一个简化的C++示例，它假设系统有足够的内存来存储哈希表，并使用标准库中的unordered_map来记录短信的出现次数，然后使用priority_queue（最大堆）来找出前10个最常见的短信。

注意：这个示例在内存使用上可能不是最优的，特别是当短信数量极大时，但它能够在较短时间内给出结果。

#include <iostream>  
#include <fstream>  
#include <sstream>  
#include <string>  
#include <unordered_map>  
#include <vector>  
#include <queue>  
#include <functional>  
  
struct Compare {  
    bool operator()(const std::pair<std::string, int>& lhs, const std::pair<std::string, int>& rhs) {  
        return lhs.second < rhs.second; // 最大堆  
    }  
};  
  
int main() {  
    std::ifstream file("sms.txt");  
    std::string line;  
    std::unordered_map<std::string, int> smsCount;  
  
    // 读取文件并统计短信出现次数  
    while (std::getline(file, line)) {  
        smsCount[line]++;  
    }  
  
    // 使用最大堆找出前10个最常见的短信  
    std::priority_queue<std::pair<std::string, int>, std::vector<std::pair<std::string, int>>, Compare> pq;  
    for (const auto& entry : smsCount) {  
        if (pq.size() < 10) {  
            pq.push(entry);  
        } else if (entry.second > pq.top().second) {  
            pq.pop();  
            pq.push(entry);  
        }  
    }  
  
    // 输出结果  
    while (!pq.empty()) {  
        std::cout << pq.top().first << ": " << pq.top().second << std::endl;  
        pq.pop();  
    }  
  
    return 0;  
}

注意：