Interview
攻城狮Kevin
爱学习,爱工作,爱生活
展开
-
面试-大量数据的解决办法
此篇先介绍了几个概念,后面的面试题为对大数量的各种处理及解决办法:海量日志数据,提取出某日访问百度次数最多的那个IP。搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节?有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词?给定a、b两个文件,各存放50亿个url,每个url各占64...转载 2019-02-26 09:18:50 · 285 阅读 · 0 评论 -
面试-大量数据的解决办法
1、你处理过的最大的数据量?你是如何处理他们的?处理的结果。 2、告诉我二个分析或者计算机科学相关项目?你是如何对其结果进行衡量的? 3、什么是:提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则? 4、什么是:协同过滤、n-grams, map reduce、余弦距离? 5、如何让一个网络爬虫速度更快、抽取更好的信息以...转载 2019-02-26 09:49:11 · 1059 阅读 · 0 评论