大数据面试总结
道法—自然
不积跬步,无以至千里;不积小流,无以成江海。——荀子
展开
-
9.5号面试题(明*+华泰kexin)
公司情况:72台服务器,256G,提供住宿,996,18左右,驻场开发1.说几个Scala函数2.sparkstreaming+kafka中,kafka在生产数据和消费数据,在消费中,kafka挂掉的时候,下一次启动起来,消费数据,从哪里开始?答案:保存消费者偏移量,或者消费ID到Redis或者MySQL中,或者zookeeper中。3.flatmap和map的区别4.搭建集群...原创 2018-09-06 19:58:28 · 1359 阅读 · 0 评论 -
11.27号面试总结
1、在ES数据库中做查询,如果字段是中文的,怎么分词,怎么查询,以及怎么匹配?2、我们一般做数据处理,数据来源于kafka,sparkstreaming去消费kafka中的数据,那如果消费的是文件,或者数据库中的数据,这种情况怎么消费,怎么处理?能否举个例子,数据量多大,花了多长时间?3、spark优化只有sparkstreaming有优化,sparkSQL没有优化。4、面试被问到做数...原创 2018-11-27 23:30:05 · 257 阅读 · 1 评论 -
百度面试总结:MapReduce中的超类有哪些
MapReduce中的类以及超类:package wordcount;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org....原创 2018-12-01 10:53:53 · 508 阅读 · 0 评论 -
MapReduce中计算Wordcount中map端及reduce端的设置
map端的设置: package wordcount;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hado...原创 2018-11-30 23:55:18 · 234 阅读 · 0 评论 -
MapReduce写代码的流程,以及需要继承的超类
package tq;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.ScanPerformanceEvaluation.MyMapper;import org....原创 2018-11-30 23:55:33 · 1697 阅读 · 0 评论 -
Google三大理论(论文)
Google引爆大数据时代的三篇论文谈到Hadoop的起源,就不得不提Google的三驾马车:Google FS、MapReduce、BigTable。虽然Google没有公布这三个产品的源码,但是他发布了这三个产品的详细设计论文,奠定了风靡全球的大数据算法的基础!一,GFS—-20032003年,Google发布Google File System论文,这是一个可扩展的分布式文件系统...原创 2018-11-30 23:55:49 · 1569 阅读 · 0 评论 -
MapReduce的整个详细过程
原创 2018-11-30 23:56:03 · 1153 阅读 · 0 评论 -
MapReduce中各个阶段的分析
MapReduce中各个阶段的分析:在MapReduce的各个阶段:在文件被读入的时候调用的是Inputformat方法读入的。inputformat——>recordreader——>read(一行) 。在这里读入一行,返回的是(k,v)的形式,key是行号的偏移量,value的值是这一行的内容。在上述的过程中,之后是调用map方法,将以上内容转换成正真的(key,v...原创 2018-11-30 23:56:16 · 14111 阅读 · 10 评论 -
spark的几种模式的比较
在spark的学习中,spark一共有四种模式,分别是:spark基于localspark基于standalonespark基于yarnspark基于metsos Standalone模式两种提交任务方式Standalone-client提交任务方式提交命令 ./spark-submit --master spark://node1:7077 -...原创 2018-12-01 23:11:28 · 2476 阅读 · 0 评论 -
思特奇笔试题及答案
因为驴每次最多驮1000,那么为了最大的利用驴,第一次卸下的地点应该是使萝卜的数量为2000的地点。 因为一开始有3000萝卜,驴必须要驮三次。设驴走X公里第一次卸下萝卜 则:5X=1000(吃萝卜的数量,也等于所行走的公里数) X=200也就是说第一次只走200公里 验算:驴驮1000根走200公里时剩800根,卸下600根,返回出发地 前两次就囤积了1200根,第三次不用返回则剩8...原创 2018-12-03 21:50:44 · 8061 阅读 · 0 评论 -
思特奇笔试题:Hadoop的三种运行模式 :
1.独立(本地)运行模式:无需任何守护进程,所有的程序都运行在同一个JVM上执行。在独立模式下调试MR程序非常高效方便。所以一般该模式主要是在学习或者开发阶段调试使用 。 2.伪分布式模式: Hadoop守护进程运行在本地机器上,模拟一个小规模的集群,换句话说,可以配置一台机器的Hadoop集群,伪分布式是完全分布式的一个特例。 3...原创 2018-12-03 21:54:18 · 802 阅读 · 0 评论 -
思特奇笔试:hadoop的优点
Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平...原创 2018-12-03 21:56:51 · 862 阅读 · 0 评论 -
12.3号面试总结
12.3号面试总结:今天周一,面试三家公司:本来生活国双科技哆啦宝本来生活:讲项目的时候,对于项目不是很熟悉,所以就没有然后了,还有现场然我写一个SQL语句,并说出这个SQL语句的执行出顺序。闪光点是MapReduce的过程将的特别细,而且特别清楚。讲之前项目中的几个图,以及几个字段的名字,字段都是什么。问优化挺多的。国双科技:讲spark与spark SQ...原创 2018-12-03 22:50:34 · 332 阅读 · 0 评论 -
博思软件面试:servlet的生命周期
servlet : init(初始化)>service>doget/dopost>destory(销毁)原创 2018-12-04 23:35:46 · 759 阅读 · 0 评论 -
博思软件面试:对于序列化的理解
序列化就是一种用来处理对象流的机制,所谓对象流也就是将对象的内容进行流化。可以对流化后的对象进行读写操作,也可将流化后的对象传输于网络之间。序列化是为了解决在对对象流进行读写操作时所引发的问题。序列化的实现:将需要被序列化的类实现Serializable接口 ...原创 2018-12-04 23:34:31 · 963 阅读 · 0 评论 -
博思软件面试:Java中多线程实现的方式
Java多线程实现的方式有四种 1.继承Thread类,重写run方法 2.实现Runnable接口,重写run方法,实现Runnable接口的实现类的实例对象作为Thread构造函数的target 3.通过Callable和FutureTask创建线程 4.通过线程池创建线程...原创 2018-12-04 23:31:10 · 1059 阅读 · 0 评论 -
9.12号面试总结
1.转换算子和触发算子的区别,并且分别列举几个2.groupbykey和reducebykey的区别首先他们都是要经过shuffle的,groupByKey在方法shuffle之间不会合并原样进行shuffle,。reduceByKey进行shuffle之前会先做合并,这样就减少了shuffle的io传送,所以效率高一点。3.job和stage是怎么划分的,job是根据什么来定的,st...原创 2018-09-13 00:00:12 · 175 阅读 · 0 评论 -
9.12号面试
1.hive中最大的一张表能有多大2.一天的数据量能有多少3.表的分区,字段是什么4.flatmap和map的区别是什么5.hadoop的环境是什么,Apache的还是CDH的6.华为大数据平台和新环大数据平台 体会:人资竟然知道大数据的东西,包括那几个部分,主流框架等,感觉在除了人资领域,更加了解业务知识和业务需求。...原创 2018-09-13 00:06:30 · 180 阅读 · 0 评论 -
猎豹移动面试题
1、问项目,问的比较细。 2、讲述几个算子,transformation算子,action算子3、写二分查找4、中序遍历二叉树5、求PV,UV6、讲几个算子7、求网站的留存,id action time1 1 11.002 0 11.00业务要求是七天之前登录这个网站的有多...原创 2018-11-28 21:51:25 · 1260 阅读 · 0 评论 -
百度面试总结
1、MapReduce的流程几个shuffle,几个partition,几次落地磁盘,在combiner里边都做了什么事情在切分的时候,1029M会切分成几个切片2、怎么能够确保消费kafka中的数据不重复,也不丢失不重复可以通过设置zookeeper保存offset来设定如果sparkstreaming消费kafka中的数据,消费了一部分之后发现数据处理的有问题,需要重新做处...原创 2018-11-28 22:58:59 · 353 阅读 · 0 评论 -
中科京安面试笔试题
面试中:1、ES数据库中,需要查询中分字符,是怎么切分的,怎么查找的2、 sparkstreaming消费kafka中的数据,两个消费者同时消费一个partition行中的数据的情况3、sparkstreaming消费数据,可不可以消费文件数据,或者数据库中的数据。...原创 2018-11-28 23:03:06 · 656 阅读 · 0 评论 -
思特奇笔试题
原创 2018-11-28 23:06:45 · 3720 阅读 · 4 评论 -
kafka怎么做到不丢失数据,不重复数据,以及kafka中的数据是存储在什么地方的?
昨天面试中被问到kafka怎么做到对于数据的不丢失,不重复。首先怎么做到不重复消费呢?在kafka的消费中,我们一般使用zookeeper充当kafka的消费者,去消费kafka中的数据。那么怎么做到不重复消费呢?假如消费了一段时间之后,kafka挂掉了,这时候需要将sparkstreaming拉起来,然后继续进行消费。那么这时候是不是又进行从头开始消费了呢?不是的,因为kafka中有一个...原创 2018-11-29 20:36:23 · 5526 阅读 · 1 评论 -
面试中遇到的问题
1、我们经常在使用flume的过程后中,会用flume去收集数据,然后打到kafka中去。但是有一个问题,当flume中收集的数据量太大的时候,打到kafka中,kafka一时半会消费不了,就会造成数据堆积,怎么截距这种问题呢?解决方案:可以通过设定参数这种方式,但是在这里这种方式显然已经不可行了,数据量太大了。这种情况下可以通过给flume设定拦截器的方式,来解决这种问题。 2、kafka...原创 2018-11-26 22:06:20 · 170 阅读 · 0 评论 -
面试中问到公司硬件系统问题
型号 CPU 内存 硬盘 read显卡 NF5270M4 2*E5-2620V4 64G 3*1.8TSAS10K 0820RAID 1000M*2 双电 导轨 价格是38400 NF5270M4 2*E5-2640V4 64G 3*1.8TSAS10K 08...原创 2018-11-26 22:41:48 · 354 阅读 · 0 评论 -
面试总结
问大家两个问题:1.flume收集数据打到kafka中,数据量太大了,kafka消费不了,这种情况怎么办。-------增加消费组的消费者个数,提高并行度补充:经过了压缩,高效的序列化以后,io和cpu都打满的情况下,只能增加机器。2.kafka消费数据,用sparkstreaming来消费,怎么能够做到不同的消费者看不到其他的数据,做到权限控制。-----你是不同的消费组还是不同的消费...原创 2018-11-26 23:40:33 · 197 阅读 · 0 评论 -
博思软件面试的启发:关于数据清洗工作的理解(包括数据清洗是做什么的,为什么要进行数据清洗工作,什么样的数据叫脏数据,脏数据如何进行数据的处理)
数据清洗(Data cleaning)– 对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。数据清洗从名字上也看的出就是把"脏"的"洗掉",指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误...原创 2018-12-04 23:20:43 · 8584 阅读 · 0 评论 -
博思软件面试笔试题
原创 2018-12-04 23:25:35 · 4846 阅读 · 0 评论 -
博思软件面试:“==”和equals的比较
== 比较的是变量(栈)内存中存放的对象的(堆)内存地址,用来判断两个对象的地址是否相同,即是否是指相同一个对象。比较的是真正意义上的指针操作。1、比较的是操作符两端的操作数是否是同一个对象。2、两边的操作数必须是同一类型的(可以是父子类之间)才能编译通过。3、比较的是地址,如果是具体的阿拉伯数字的比较,值相等则为trueequals用来比较的是两个对象的内容是否相等,由于所有的类都是继承...原创 2018-12-04 23:26:27 · 1099 阅读 · 0 评论 -
本来控股面试题:SQL语句的执行顺序问题
ql和mysql执行顺序,发现内部机制是一样的。最大区别是在别名的引用上。 一、sql执行顺序 (1)from (3) join (2) on (4) where (5)group by(开始使用select中的别名,后面的语句中都可以使用)(6) avg,sum.... (7)having (8) select (9) distinct (10) order by 从这个...原创 2018-12-03 23:14:40 · 624 阅读 · 0 评论