大数据面试题收集
With__Sunshine
这个作者很懒,什么都没留下…
展开
-
大数据面试题必会2018.01.07
数据分析师常见的10道面试题解答 1.海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中,注意到IP是32位的,最多有个2*32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文件中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频...转载 2018-05-11 15:14:24 · 309 阅读 · 0 评论 -
Hbase相关面试题
他人真实面试问题HBase的架构和基本原理HBase与传统关系型数据库如MySQL的区别读写性能对比读快还是写快Hbase的设计有什么心得Hbase的操作是用的什么API还是什么工具你们hbase里面是存一些什么数据知道spark怎么读hbase吗做过hbase的二级索引吗Hbase的PUT的一个过程以下是我自己想的问题描述一下Region切分的过程Hbase读取数据的流程HBase的缺点优点已经...转载 2018-05-14 10:26:16 · 1204 阅读 · 0 评论 -
大数据面试题
hadoop面试100道收集(带答案) 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384目录(?)[+]2 HBase的RowKe...转载 2018-05-14 10:28:22 · 8340 阅读 · 0 评论 -
大数据算法面试题
1、给定 a、b 两个文件,各存放 50 亿个 url,每个 url 各占 64 字节,内存限制是 4G,让你找出 a、b 文件共同的 url?1) 可以估计每个文件安的大小为 50G×64=320G,远远大于内存限制的 4G。所以不可能将其完全加载到内存中处理。考虑采取 分而治之 的方法。2) 遍历文件 a,对每个 url 求取 ,然后根据所取得的值将 url 分别存储到 1000 个小文件(记...转载 2018-05-14 10:29:41 · 855 阅读 · 0 评论 -
网易大数据面试题试解
上周无意中看到了一份网易的面试题,说明为大数据部的面试题,粗略的看了一下,觉得挺有趣的,所以尝试着进行一下解答,首先要吐槽下,不知道这是什么级别岗位的题目,感觉有些不够专业,对大数据能力考察的题目几乎没有,大多是比较宽泛的问题,感觉各个岗位面试都可以问的那些问题。题目如下:笔试:1、甲和乙下棋,一局中甲获胜的概率为2/3,乙获胜的概率为1/3,一方比另一方多赢两局算赢,求甲获胜的概率?答:条件比较...转载 2018-05-14 10:32:14 · 1368 阅读 · 0 评论 -
大数据相关面试题整理-带答案-难一点
1、fsimage和edit的区别? 大家都知道namenode与secondary namenode 的关系,当他们要进行数据同步时叫做checkpoint时就用到了fsimage与edit,fsimage是保存最新的元数据的信息,当fsimage数据到一定的大小事会去生成一个新的文件来保存元数据的信息,这个新的文件就是edit,edit会回滚最新的数据。2、列举几个配置文件优化? --发挥 ...转载 2018-05-14 10:34:35 · 753 阅读 · 0 评论 -
大数据面试题解决方案
1)给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址?!解决方法将100G分成100份,将每个ip映射到相应文件中 ip_if=ip%100找出每个文件中的出现次数最多的一个ip再将100份里找出来的最多的一个放入一个哈希表中进行比较找出最大值2)与上题条件相同,如何找到top K的IP?如何直接⽤用Linux系统命令实现?解决方法将100G分...转载 2018-05-14 10:40:29 · 329 阅读 · 0 评论 -
关于分库分表大体思路,做法
起因:公司项目的数据量过大,已经超过20T,单张表数据+索引近5T,单表及单库性能都面临巨大的挑战。为了保证用户体验,提升效率,数据库方面需要优化。项目:分布式项目,单系统已做集群,日均查询量2000W左右,交易量800W左右特点:数据量大,并发量大***(由于本身所在的项目属于核心系统部分与数据库交互,其他系统调用核心系统接口,所以不做阐述,仅记录本系统做法)数据库:Oracle...转载 2019-04-12 17:25:27 · 215 阅读 · 0 评论 -
Hbase总结(六)hbase37个笔试题
以下试题是摘自互联网的基础上自己加了选项说明解释便于自己以后看时方便节省时间1. HBase来源于哪篇博文? CA The Google File SystemB MapReduceC BigTableD Chubby2. 下面对HBase的描述哪些是正确的? B、C、DA 不是开源的B 是面向列的C 是分布式的D 是一种NoSQL数据库3. HBase依靠()存储底层数据 AA HDFSB Ha...转载 2018-05-14 10:25:15 · 1233 阅读 · 0 评论 -
大数据Hbase 面试题
hbase 的特点是什么 (1) Hbase一个分布式的基于列式存储的数据库,基于Hadoop的hdfs存储,zookeeper进行管理。(2) Hbase适合存储半结构化或非结构化数据,对于数据结构字段不够确定或者杂乱无章很难按一个概念去抽取的数据。(3) Hbase为null的记录不会被存储.(4)基于的表包含rowkey,时间戳,和列族。新写入数据时,时间戳更新,同时可以查询到以前的版本....转载 2018-05-14 10:24:20 · 1096 阅读 · 0 评论 -
大数据面试题及答案 2018
1. java内存模型2.gc3.编译好的scala程序,运行时还需要scala环境吗Scala的代码执行是用REPL过程,ReadExecute Print Loop4.object中有哪些方法5.监测集群中的cpu,内存使用情况?6、ArrayList中的Array长度超了是怎么增加的,一次增加多少? --------------------------------------------...转载 2018-05-14 10:22:44 · 2156 阅读 · 0 评论 -
大数据面试题
Big Data 面试题总结 JAVA相关1-1)List 与set 的区别?老掉牙的问题了,还在这里老生常谈:List特点:元素有放入顺序,元素可重复 ,Set特点:元素无放入顺序,元素不可重复。 1-2)数据库的三大范式?原子性、一致性、唯一性 1-3)java 的io类的图解 1-4)对象与引用对象的区别对象就是好没有初始化的对象,引用对象即使对这个对象进行了初始化,这个初始化可以使自己的...转载 2018-05-11 15:28:42 · 1839 阅读 · 0 评论 -
大数据面试题以及答案整理(一)
kafka的message包括哪些信息一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。当magic的值为1的时候,会在magic和crc32之间多一个字节的数据:attributes(保存一些相关属性,比如是否压缩、压缩格式等等);如果magic的...转载 2018-05-11 15:30:26 · 853 阅读 · 0 评论 -
大数据面试题以及答案整理(二)
Redis性能优化,单机增加CPU核数是否会提高性能1、根据业务需要选择合适的数据类型,并为不同的应用场景设置相应的紧凑存储参数。2、当业务场景不需要数据持久化时,关闭所有的持久化方式可以获得最佳的性能以及最大的内存使用量。3、如果需要使用持久化,根据是否可以容忍重启丢失部分数据在快照方式与语句追加方式之间选择其一,不要使用虚拟内存以及diskstore方式。4、不要让你的Redis所在机器物理内...转载 2018-05-11 15:31:18 · 294 阅读 · 0 评论 -
大数据面试题及答案-汇总版
大数据面试题及答案汇总版 当前版本:Ver 1.0制作单位: 编写人员:审 核 人: 签 收 人: 签署日期: 2017 年 05 月 22 日 文档信息版本号1.0版本日期2017-05-22所有者 作者修订记录日期描述作者版本号2017-05-22新增 ...转载 2018-05-11 15:33:03 · 2172 阅读 · 0 评论 -
30个常见的大数据面试题 让你的薪资提升一个等级
经历了水深火热的大数据学习,终于拨开云雾见天明了,但你离成功总是还差了一步,那就是拿到大数据工程师的Offer。在电脑旁奋斗了无数个日夜,代码敲了无数遍,项目整改了无数遍,只为了得到一份自己满意的高薪资高待遇的Offer。但这个收获不仅仅需要你学到娴熟的大数据技术,还需要在面试之前精心准备,了解自己要应聘的企业发展状况、 自己应聘岗位的技术要求等等,除此之外,多看一些大数据面试题也是很有必要的,给...转载 2018-05-11 15:34:10 · 1233 阅读 · 0 评论 -
最近经历的一些大数据(Spark/Hadoop)面试题
公司A:1.讲讲你做的过的项目。 项目里有哪些 难点重点注意点呢?2.讲讲多线程吧, 要是你,你怎么实现一个线程池呢?3.讲一下Mapreduce或者hdfs的原理和机制。map读取数据分片。4.shuffle 是什么? 怎么调优?5.项目用什么语言写? Scala? Scala的特点? 和Java的区别?6.理论基础怎么样,比如数据结构,里面的快速排序,或者,树? 讲一讲你了解的树的知识?7.数...转载 2018-05-11 15:35:20 · 717 阅读 · 0 评论 -
腾讯大数据面试及参考答案[2017]
Hadoop面试45个题目和参考答案http://www.aboutyun.com/forum.php?mod=viewthread&tid=21404&extra=page%3D1转载地址:https://blog.csdn.net/wuxintdrh/article/details/68969302转载 2018-05-11 15:37:15 · 5378 阅读 · 1 评论 -
十道海量数据处理面试题与十个方法大总结
海量数据处理:十道面试题与十个海量数据处理方法总结作者:July、youwang、yanxionglu。时间:二零一一年三月二十六日本文之总结:教你如何迅速秒杀掉:99%的海量数据处理面试题。有任何问题,欢迎随时交流、指正。出处:http://blog.csdn.net/v_JULY_v。 第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是...转载 2018-05-11 15:39:04 · 193 阅读 · 0 评论 -
大数据相关面试题整理-带答案-难一点
1、fsimage和edit的区别? 大家都知道namenode与secondary namenode 的关系,当他们要进行数据同步时叫做checkpoint时就用到了fsimage与edit,fsimage是保存最新的元数据的信息,当fsimage数据到一定的大小事会去生成一个新的文件来保存元数据的信息,这个新的文件就是edit,edit会回滚最新的数据。2、列举几个配置文件优化? --发...转载 2019-06-11 09:57:19 · 429 阅读 · 0 评论