算法习题38:百度面试题(天平,大量输入流,URL去重)

百度面试:

1.用天平(只能比较,不能称重)从一堆小球中找出其中唯一一个较轻的,使用x次天平,最多可以从y个小球中找出较轻的那个,求y与x的关系式

2.有一个很大很大的输入流,大到没有存储器可以将其存储下来,而且只输入一次,如何从这个输入流中随机取得m个记录

3.大量的URL字符串,如何从中去除重复的,优化时间空间复杂度

来自:http://bbs.csdn.net/topics/350118968

-------------------------------------------------------------------

表示鄙人语文有问题。。。

第一题理解成所有球重量都不一致,只有一个最轻,一开始就把分堆排除的办法给否定了。。。。得出y=x+1的错误答案。。

其实这里是只只有一个球质量是轻的,其他球质量一致,所以可以采用分堆的办法,从信息论角度来看,每次称重可以得到三个答案,左边重,相等,右边重,所以信息量是log3  所以这里分成三堆来做是可以达到效率最大,比如前两堆重量一致,那么轻的肯定在第三堆,否则就可以通过天平得到轻的那堆,然后在分三堆,

所以y=X^3   不过这里还有考虑x=0 这个特殊 y=1   如果写反x=log(3)Y  这里需要向上取整

参考这里讨论的:http://bbs.csdn.net/topics/350079942?page=1 


第二题:

这道题也不是很理解。。既然是随机取,这里可以每次输入一个流进来的时候随机产生一个数字,同时维护一个m维的链表,根据这个数字决定是否更新这个链表的第几个元素。。。


第三题:

恰好最近看到,也确实是百度这种搜索引擎公司会遇到的问题。这道题用一个hash表维护,对URL生成MD5签名,然后用签名在Hash表中找是否重复,优化空间就是利用bit来优化了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值