海量数据问题

我要改名字qWq

于 2021-02-20 21:30:03 发布

阅读量338

点赞数

分类专栏：面试-2021-02

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wenqiangW_/article/details/113897413

版权

面试-2021-02 专栏收录该内容

27 篇文章 0 订阅

订阅专栏

1、怎么在海量数据中找出重复次数最多的一个?

将大文件的数据进行hash，相同hash值的数据分配到一个文件，然后统计出每个文件出现次数最多的单词和对应次数，然后比较每个文件的最大出现次数，得到重复次数最多的单词

2、上千万或上亿数据(有重复)，统计其中出现次数最多的前 N 个数据。

3、一个文本文件，大约有一万行，每行一个词，要求统计出其中最频繁出现的前 10 个词，给出思想，给出时间复杂度分析。

4、100w 个数中找出最大的 100 个数。

100W个数进行hash%1000，得到1000个文件，然后得到每个文件的top100，然后放入一个文件求top100

5、有一千万条短信，有重复，以文本文件的形式保存，一行一条，有重复。请用 5 分钟时间，找出重复出现最多的前 10 条

将一千万短信hash后存入到10000份文件中，然后找出每个文件中重复最多的10条，然后存入一个文件，找出重复最多的10条

6、给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url?

将a b 两个文件进行hash成1000份小文件，hash之后不对应的小文件不会有相同的url，然后将a的小文件放入集合去遍历b对应的文件，找到相同的url

7.现有海量日志数据保存在一个超级大的文件中，该文件无法直接读入内存，要求从中提取某天出访问百度次数最多的那个IP

Step1：从这一天的日志数据中把访问百度的IP取出来，逐个写入到一个大文件中;

Step2：注意到IP是32位的，最多有2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件;

Step3：找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计，然后再找出频率最大的几个)及相应的频率;

Step4：在这1000个最大的IP中，找出那个频率最大的IP，即为所求。

我要改名字qWq

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
海量数据问题

1、怎么在海量数据中找出重复次数最多的一个?将大文件的数据进行hash，相同hash值的数据分配到一个文件，然后统计出每个文件出现次数最多的单词和对应次数，然后比较每个文件的最大出现次数，得到重复次数最多的单词2、上千万或上亿数据(有重复)，统计其中出现次数最多的前 N 个数据。3、一个文本文件，大约有一万行，每行一个词，要求统计出其中最频繁出现的前 10 个词，给出思想，给出时间复杂度分析。4、100w 个数中找出最大的 100 个数。100W个数进行ha...
复制链接

扫一扫

专栏目录

我要改名字qWq CSDN认证博客专家 CSDN认证企业博客

码龄7年

42: 原创

12万+: 周排名

125万+: 总排名

1万+: 访问

: 等级

449: 积分

2: 粉丝

1: 获赞

10: 评论

11: 收藏

私信

关注

分类专栏

最新评论

hadoop 1.0与2.0
ctotalk: good.
kafka模块
ctotalk: thanks very good
3.Spark编程
不吃西红柿丶: 平凡文字中显示出不凡的文学功底，哈哈哈哈哈哈。
2.Spark核心概念
不吃西红柿丶: 我最近也在学这个，博文写的挺好，谢谢宝藏博主~
1.Spark介绍及安装
不吃西红柿丶: 写得挺好，要持续稳定输出哦~

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。