大数据开发面试
道法—自然
不积跬步,无以至千里;不积小流,无以成江海。——荀子
展开
-
本来控股面试题:SQL语句的执行顺序问题
ql和mysql执行顺序,发现内部机制是一样的。最大区别是在别名的引用上。 一、sql执行顺序 (1)from (3) join (2) on (4) where (5)group by(开始使用select中的别名,后面的语句中都可以使用)(6) avg,sum.... (7)having (8) select (9) distinct (10) order by 从这个...原创 2018-12-03 23:14:40 · 617 阅读 · 0 评论 -
博思软件面试:对于序列化的理解
序列化就是一种用来处理对象流的机制,所谓对象流也就是将对象的内容进行流化。可以对流化后的对象进行读写操作,也可将流化后的对象传输于网络之间。序列化是为了解决在对对象流进行读写操作时所引发的问题。序列化的实现:将需要被序列化的类实现Serializable接口 ...原创 2018-12-04 23:34:31 · 960 阅读 · 0 评论 -
博思软件面试:Java中多线程实现的方式
Java多线程实现的方式有四种 1.继承Thread类,重写run方法 2.实现Runnable接口,重写run方法,实现Runnable接口的实现类的实例对象作为Thread构造函数的target 3.通过Callable和FutureTask创建线程 4.通过线程池创建线程...原创 2018-12-04 23:31:10 · 1044 阅读 · 0 评论 -
博思软件面试:“==”和equals的比较
== 比较的是变量(栈)内存中存放的对象的(堆)内存地址,用来判断两个对象的地址是否相同,即是否是指相同一个对象。比较的是真正意义上的指针操作。1、比较的是操作符两端的操作数是否是同一个对象。2、两边的操作数必须是同一类型的(可以是父子类之间)才能编译通过。3、比较的是地址,如果是具体的阿拉伯数字的比较,值相等则为trueequals用来比较的是两个对象的内容是否相等,由于所有的类都是继承...原创 2018-12-04 23:26:27 · 1088 阅读 · 0 评论 -
博思软件面试笔试题
原创 2018-12-04 23:25:35 · 4815 阅读 · 0 评论 -
博思软件面试的启发:关于数据清洗工作的理解(包括数据清洗是做什么的,为什么要进行数据清洗工作,什么样的数据叫脏数据,脏数据如何进行数据的处理)
数据清洗(Data cleaning)– 对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。数据清洗从名字上也看的出就是把"脏"的"洗掉",指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误...原创 2018-12-04 23:20:43 · 8571 阅读 · 0 评论 -
面试总结
问大家两个问题:1.flume收集数据打到kafka中,数据量太大了,kafka消费不了,这种情况怎么办。-------增加消费组的消费者个数,提高并行度补充:经过了压缩,高效的序列化以后,io和cpu都打满的情况下,只能增加机器。2.kafka消费数据,用sparkstreaming来消费,怎么能够做到不同的消费者看不到其他的数据,做到权限控制。-----你是不同的消费组还是不同的消费...原创 2018-11-26 23:40:33 · 192 阅读 · 0 评论 -
面试中问到公司硬件系统问题
型号 CPU 内存 硬盘 read显卡 NF5270M4 2*E5-2620V4 64G 3*1.8TSAS10K 0820RAID 1000M*2 双电 导轨 价格是38400 NF5270M4 2*E5-2640V4 64G 3*1.8TSAS10K 08...原创 2018-11-26 22:41:48 · 344 阅读 · 0 评论 -
面试中遇到的问题
1、我们经常在使用flume的过程后中,会用flume去收集数据,然后打到kafka中去。但是有一个问题,当flume中收集的数据量太大的时候,打到kafka中,kafka一时半会消费不了,就会造成数据堆积,怎么截距这种问题呢?解决方案:可以通过设定参数这种方式,但是在这里这种方式显然已经不可行了,数据量太大了。这种情况下可以通过给flume设定拦截器的方式,来解决这种问题。 2、kafka...原创 2018-11-26 22:06:20 · 166 阅读 · 0 评论 -
明日学习
MapReduce中的超类MapReduce的计算流程,几个partition,merge,sort基于yarn的模式SQL 语句原创 2018-11-30 00:35:20 · 223 阅读 · 0 评论 -
kafka怎么做到不丢失数据,不重复数据,以及kafka中的数据是存储在什么地方的?
昨天面试中被问到kafka怎么做到对于数据的不丢失,不重复。首先怎么做到不重复消费呢?在kafka的消费中,我们一般使用zookeeper充当kafka的消费者,去消费kafka中的数据。那么怎么做到不重复消费呢?假如消费了一段时间之后,kafka挂掉了,这时候需要将sparkstreaming拉起来,然后继续进行消费。那么这时候是不是又进行从头开始消费了呢?不是的,因为kafka中有一个...原创 2018-11-29 20:36:23 · 5519 阅读 · 1 评论 -
思特奇笔试题
原创 2018-11-28 23:06:45 · 3687 阅读 · 4 评论 -
中科京安面试笔试题
面试中:1、ES数据库中,需要查询中分字符,是怎么切分的,怎么查找的2、 sparkstreaming消费kafka中的数据,两个消费者同时消费一个partition行中的数据的情况3、sparkstreaming消费数据,可不可以消费文件数据,或者数据库中的数据。...原创 2018-11-28 23:03:06 · 648 阅读 · 0 评论 -
博思软件面试:servlet的生命周期
servlet : init(初始化)>service>doget/dopost>destory(销毁)原创 2018-12-04 23:35:46 · 753 阅读 · 0 评论 -
11.27号面试总结
1、在ES数据库中做查询,如果字段是中文的,怎么分词,怎么查询,以及怎么匹配?2、我们一般做数据处理,数据来源于kafka,sparkstreaming去消费kafka中的数据,那如果消费的是文件,或者数据库中的数据,这种情况怎么消费,怎么处理?能否举个例子,数据量多大,花了多长时间?3、spark优化只有sparkstreaming有优化,sparkSQL没有优化。4、面试被问到做数...原创 2018-11-27 23:30:05 · 252 阅读 · 1 评论 -
12.3号面试总结
12.3号面试总结:今天周一,面试三家公司:本来生活国双科技哆啦宝本来生活:讲项目的时候,对于项目不是很熟悉,所以就没有然后了,还有现场然我写一个SQL语句,并说出这个SQL语句的执行出顺序。闪光点是MapReduce的过程将的特别细,而且特别清楚。讲之前项目中的几个图,以及几个字段的名字,字段都是什么。问优化挺多的。国双科技:讲spark与spark SQ...原创 2018-12-03 22:50:34 · 326 阅读 · 0 评论 -
思特奇笔试:hadoop的优点
Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平...原创 2018-12-03 21:56:51 · 832 阅读 · 0 评论 -
思特奇笔试题:Hadoop的三种运行模式 :
1.独立(本地)运行模式:无需任何守护进程,所有的程序都运行在同一个JVM上执行。在独立模式下调试MR程序非常高效方便。所以一般该模式主要是在学习或者开发阶段调试使用 。 2.伪分布式模式: Hadoop守护进程运行在本地机器上,模拟一个小规模的集群,换句话说,可以配置一台机器的Hadoop集群,伪分布式是完全分布式的一个特例。 3...原创 2018-12-03 21:54:18 · 784 阅读 · 0 评论 -
思特奇笔试题及答案
因为驴每次最多驮1000,那么为了最大的利用驴,第一次卸下的地点应该是使萝卜的数量为2000的地点。 因为一开始有3000萝卜,驴必须要驮三次。设驴走X公里第一次卸下萝卜 则:5X=1000(吃萝卜的数量,也等于所行走的公里数) X=200也就是说第一次只走200公里 验算:驴驮1000根走200公里时剩800根,卸下600根,返回出发地 前两次就囤积了1200根,第三次不用返回则剩8...原创 2018-12-03 21:50:44 · 8027 阅读 · 0 评论 -
spark的几种模式的比较
在spark的学习中,spark一共有四种模式,分别是:spark基于localspark基于standalonespark基于yarnspark基于metsos Standalone模式两种提交任务方式Standalone-client提交任务方式提交命令 ./spark-submit --master spark://node1:7077 -...原创 2018-12-01 23:11:28 · 2469 阅读 · 0 评论 -
MapReduce中各个阶段的分析
MapReduce中各个阶段的分析:在MapReduce的各个阶段:在文件被读入的时候调用的是Inputformat方法读入的。inputformat——>recordreader——>read(一行) 。在这里读入一行,返回的是(k,v)的形式,key是行号的偏移量,value的值是这一行的内容。在上述的过程中,之后是调用map方法,将以上内容转换成正真的(key,v...原创 2018-11-30 23:56:16 · 14096 阅读 · 10 评论 -
MapReduce的整个详细过程
原创 2018-11-30 23:56:03 · 1144 阅读 · 0 评论 -
Google三大理论(论文)
Google引爆大数据时代的三篇论文谈到Hadoop的起源,就不得不提Google的三驾马车:Google FS、MapReduce、BigTable。虽然Google没有公布这三个产品的源码,但是他发布了这三个产品的详细设计论文,奠定了风靡全球的大数据算法的基础!一,GFS—-20032003年,Google发布Google File System论文,这是一个可扩展的分布式文件系统...原创 2018-11-30 23:55:49 · 1547 阅读 · 0 评论 -
MapReduce写代码的流程,以及需要继承的超类
package tq;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.ScanPerformanceEvaluation.MyMapper;import org....原创 2018-11-30 23:55:33 · 1683 阅读 · 0 评论 -
MapReduce中计算Wordcount中map端及reduce端的设置
map端的设置: package wordcount;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hado...原创 2018-11-30 23:55:18 · 228 阅读 · 0 评论 -
百度面试总结:MapReduce中的超类有哪些
MapReduce中的类以及超类:package wordcount;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org....原创 2018-12-01 10:53:53 · 502 阅读 · 0 评论 -
百度面试总结
1、MapReduce的流程几个shuffle,几个partition,几次落地磁盘,在combiner里边都做了什么事情在切分的时候,1029M会切分成几个切片2、怎么能够确保消费kafka中的数据不重复,也不丢失不重复可以通过设置zookeeper保存offset来设定如果sparkstreaming消费kafka中的数据,消费了一部分之后发现数据处理的有问题,需要重新做处...原创 2018-11-28 22:58:59 · 345 阅读 · 0 评论 -
猎豹移动面试题
1、问项目,问的比较细。 2、讲述几个算子,transformation算子,action算子3、写二分查找4、中序遍历二叉树5、求PV,UV6、讲几个算子7、求网站的留存,id action time1 1 11.002 0 11.00业务要求是七天之前登录这个网站的有多...原创 2018-11-28 21:51:25 · 1240 阅读 · 0 评论 -
面试中遇到的问题
Redis底层是hashmap,hashmap底层怎么去重,改写方法,Redis集群怎么去重集群中提交了jar包之后怎么做单例模式遍历二叉树SQL语句的东西kafka底层的存储方式spark分为哪几类,各自之间的关系各种参数的调优Java中gc垃圾回收机制 ...原创 2018-09-24 18:03:15 · 151 阅读 · 0 评论 -
大数据面试必备:Wordcount的书写
1.源数据hello wordhello javahello pythonhello waadhello wordhello javahello pythonhello waadhello wordhello javahello pythonhello waadhello wordhello javahello pythonhello waadhello w...原创 2018-08-27 10:51:15 · 592 阅读 · 0 评论 -
spark部分:spark的架构
2.Spark 的架构Spark 架构采用了分布式计算中的Master-Slave模型。Master 是对应集群中的含有Master 进程的节点,Slave 是集群中含有Worker 进程的节点。Master 作为整个集群的控制器,负责整个集群的正常运行;Worker相当于是计算节点,接收主节点命令与进行状态汇报;Executor负责任务的执行;Client作为用户的客户端负责提交应用,Dri...原创 2018-08-23 20:58:48 · 1065 阅读 · 0 评论 -
大数据开发面试中一些琐事的知识点【持续更新中】
1.spark程序用什么语言写的?Scala语言写的2.MapReduce,storm,hadoop是用什么语言写的?Java语言写的3.写一个Scala版的WordcountScala版的Wordcount package com.bjsxt.scala import org.apache.spark.SparkConfimport org.apache.spar...原创 2018-08-23 07:49:53 · 232 阅读 · 0 评论 -
我们目前使用的软件的版本号【不断更新中】
我们目前使用的软件的版本号:HBASE:0.98hive:1.2.1JDK:1.7/1.8sqoop:1.4.6以下是storm的配置,供参考:JDK 1.6+java -versionPython 2.6.6+python -VZooKeeper3.4.5+storm 0.9.4+hadoop:2.6.5zookeeper-3.4.6spark1....原创 2018-08-23 21:12:53 · 182 阅读 · 0 评论 -
Spark部分:spark部分的调优【资源优化,并行度优化,代码优化,数据本地化,内存优化,spark shuffle优化,调节executor堆外内存,解决数据倾斜】
spark的调优分为以下部分:资源优化并行度优化代码优化数据本地化内存优化spark shuffle优化调节executor堆外内存解决数据倾斜 1.资源调优 1).搭建集群 在spark安装包的conf下spark-env.sh SPARK_WORKER_CORES SPARK_WORKER_MEMORY SPARK_WORK...原创 2018-08-22 21:33:14 · 332 阅读 · 0 评论 -
hadoop部分:hadoop生态圈的理解(HDFS,MapReduce,HBASE,zookeeper,hive,sqoop,flume,kafka,yarn,spark)
一、简介 Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。二、核心 Hadoop对应于Google三驾马车:HDFS对应于GFS,即分布式文件系统,MapReduce即并行计算框架,...原创 2018-08-21 20:11:27 · 7795 阅读 · 0 评论 -
【复习】Flume数据收集学习【图片+文字说明】
一.Hadoop业务的整体框架流程介绍 以上是hadoop整体的一个开发流程,我们可以看出flume在整个大数据开发过程中的位置:做最前期数据的收集工作。二.Flume架构介绍本文将围绕Flume的架构、Flume的应用(日志采集)进行详细的介绍: flume是分布式的日志收集系统,它将各个服务器中的数据收集起来并送到指定的地方去,比如说送到图中的HDFS,简单来说flum...转载 2018-07-31 12:03:10 · 656 阅读 · 0 评论 -
kafka和flume基本原理的比较
kafka的基本原理Kafka的架构:分布式消息系统,默认将消息存入磁盘,存储时间是7天。Producer:消息的生产者,自己决定消息写往哪个partition,两种:1.hash,2.轮询Broker:组建kafka集群的节点,broker之间没有主从关系,broker由zookeeper来协调,broker负责消息的读写,存储。每个broker可以管理多个partition。T...原创 2018-08-21 23:58:56 · 3722 阅读 · 0 评论 -
wordcount(包含java版和Scala版)
Java版的Wordcountpackage com.bjsxt.scala;import java.util.Arrays;import javax.sound.sampled.Line;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apac...原创 2018-07-19 12:02:30 · 617 阅读 · 0 评论 -
Spark基于资源调度和任务调度;粗粒度资源申请和细粒度资源申请(详细版:图解+文字说明)
Spark任务调度和资源调度 1).资源调度 a).集群启动,Worker向Master汇报资源,Master掌握了集群资源情况 b).当在客户端提交任务的时候,运行任务,new SparkContext,会创建两个对象:DAGScheduler和TaskScheduler c).TaskScheduler向M...原创 2018-07-21 21:09:53 · 1598 阅读 · 1 评论 -
SparkStreaming部分:SparkStreaming+kafka 的receive模式(文字说明+图片)
Sparkstreaming+kafka的Receiver模式读取数据:默认读取数据的存储级别是:MEMORY_AND_DISK_SER_2采用了receiver接收器的模式,需要一个task一直处于接受数据的状态,sparkstreaming相当于kafka的消费者,接收来的数据被分到其他节点上,完成之后,会向zookeeper更新消费者的offset。当更新完消费者的偏移量之后,如果D...原创 2018-07-30 21:14:40 · 756 阅读 · 0 评论