百度面试:
1.用天平(只能比较,不能称重)从一堆小球中找出其中唯一一个较轻的,使用x次天平,最多可以从y个小球中找出较轻的那个,求y与x的关系式
2.有一个很大很大的输入流,大到没有存储器可以将其存储下来,而且只输入一次,如何从这个输入流中随机取得m个记录
3.大量的URL字符串,如何从中去除重复的,优化时间空间复杂度
来自:http://bbs.csdn.net/topics/350118968
-------------------------------------------------------------------
表示鄙人语文有问题。。。
第一题理解成所有球重量都不一致,只有一个最轻,一开始就把分堆排除的办法给否定了。。。。得出y=x+1的错误答案。。
其实这里是只只有一个球质量是轻的,其他球质量一致,所以可以采用分堆的办法,从信息论角度来看,每次称重可以得到三个答案,左边重,相等,右边重,所以信息量是log3 所以这里分成三堆来做是可以达到效率最大,比如前两堆重量一致,那么轻的肯定在第三堆,否则就可以通过天平得到轻的那堆,然后在分三堆,
所以y=X^3 不过这里还有考虑x=0 这个特殊 y=1 如果写反x=log(3)Y 这里需要向上取整
参考这里讨论的:http://bbs.csdn.net/topics/350079942?page=1
第二题:
这道题也不是很理解。。既然是随机取,这里可以每次输入一个流进来的时候随机产生一个数字,同时维护一个m维的链表,根据这个数字决定是否更新这个链表的第几个元素。。。
第三题:
恰好最近看到,也确实是百度这种搜索引擎公司会遇到的问题。这道题用一个hash表维护,对URL生成MD5签名,然后用签名在Hash表中找是否重复,优化空间就是利用bit来优化了