Interview100-44 一些腾讯面试题

题目

1. 设计一个六面模仿的程序(面向对象)

2. 有1000w条短信,有重复,以文本文件的形式保存,一行一条,请用5分钟时间,找出重复出现最多的前10条。

解法

1. 第一题主要考察面向对象编程。

2. 第二题为TOP K问题,分析如下:

如果每条短信限定的长度在144chars之内,则1000w条短信为:1000w*144bytes=1.4GB左右,这种大小的数据可以一次性放入内存中,这样可以使用HashMap统计每个短息的重复次数,然后根据得到的统计结果,使用最小堆找出出现频率最大的10条即可。

如果这些短息无法一次性放入内容中进行统计,可以考虑(1)使用Hash(message) mod 10的方式,将大文件分为10个小文件中,然后对每个小文件分别进行统计频率,然后使用最小堆分别找出每个文件中的top 10,得到10个统计的结果文件,然后进行归并。

TOPK问题的经典做法:

先读取k个元素建最小堆的结构(O(k)),然后遍历剩下的所有元素,与堆顶元素进行比较,如果当前元素大于堆顶元素,则将当前元素替换掉堆顶元素,然后调整堆中的元素维护最小堆的性质(O(lgk)),遍历完成后,堆中的元素即为TOP k的元素。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值