大数据面试准备(春)
文章平均质量分 64
备战2022年春招!
AIMaynor
个人博客:maynor1024.live,ai网站:api.maynor1024.live
展开
-
Java大数据面试复习30天冲刺 - 日积月累,每日五题【Day04】——JavaSE
创建线程有几种方式1.通过继承Thread类实现,实现简单但不可以继承其他类,多个线程之间无法共享该线程类的实例变量。2.实现Runnable接口,较继承Thread类,避免继承的局限性,适合资源共享。3.使用Callable,方法中可以有返回值,并且抛出异常。4.创建线程池实现,线程池提供了一个线程队列,队列中保存所有等待状态的线程,避免创建与销毁额外开销,提高了响应速度。线程的生命周期线程的生命周期:线程要经历新建、就绪、运行(活动)、阻塞和死亡五种不同的状态。这五种状态都可以通过Threa原创 2022-03-24 20:32:25 · 2271 阅读 · 3 评论 -
Java大数据面试复习30天冲刺 - 日积月累,每日五题【Day03】——JavaSE
JDK JRE JVM 的区别JDK(Java Development Kit)是整个 Java 的核心,是 java 开发工具包,包括了 Java 运行环境 JRE、Java 工具和 Java 基础类库。JRE(Java Runtime Environment)是运行 JAVA 程序所必须的环境的集合,包含 java 虚拟机和 java 程序的一些核心类库。JVM 是 Java Virtual Machine(Java 虚拟机)的缩写,是整个 java 实现跨平台的最核心的部分,能够运行以 Java原创 2022-03-24 20:31:48 · 308 阅读 · 0 评论 -
Java大数据面试复习30天冲刺 - 日积月累,每日五题【Day02】——JavaSE
大家好,我是程序员manor。作为一名大数据专业学生、爱好者,深知面试重要性,接下来我准备用30天时间,基于大数据开发岗面试中的高频面试题,以每日5题的形式,带你过一遍常见面试题及恰如其分的解答。相信只要一路走来,日积月累,我们终会在最高处见。以古人的话共勉:道阻且长,行则将至;行而不辍,未来可期!常见的数据结构有哪些数组:数组是最常用的数据结构,数组的特点是长度固定,可以用下标索引,并且所有的元素的类型都是一致的。数组常用的场景有:从数据库里读取雇员的信息存储为EmployeeDetai.原创 2022-03-22 09:33:48 · 408 阅读 · 1 评论 -
Java大数据面试复习30天冲刺 - 日积月累,每日五题【Day01】——JavaSE
文章目录1. 重载和重写的区别2. String和StringBuffer,StringBuilder 的区别是什么?String 为什么是不可变的?3. Java 中==和 equals 的区别4. 关于final关键字的一些总结5.error 和 exception 的区别?1. 重载和重写的区别重载: 发生在同一个类中,方法名必须相同,参数类型不同,个数不同,顺序不同,方法返回值和访问修饰符可以不同,发生在编译时。重写: 发生在父子类中,方法名,参数列表必须相同,返回值范围小于等于父类,抛出的异原创 2022-03-20 21:25:39 · 378 阅读 · 4 评论 -
2022年Flink面试题整理
文章目录1 简单介绍一下 Flink2 Flink跟Spark Streaming的区别3 Flink集群有哪些角色?各自有什么作用?4 公司怎么提交的实时任务,有多少Job Manager?5 Flink的并行度了解吗?Flink的并行度设置是怎样的?6 Flink的Checkpoint 存在哪里7 Flink的三种时间语义8 说说Flink中的窗口9 Exactly-Once的保证10 说一下Flink状态机制11 Flink 中的Watermark机制12 Flink分布式快照的原理是什么13 介绍一原创 2022-03-18 20:49:49 · 1949 阅读 · 0 评论 -
大数据面试吹牛草稿V2.0
面试吹牛之前先打个草稿!各位面试官好!我叫 xxx,毕业于 xxx,之前在 xxx 公司待了 1 年多,期间⼀直从事的是 IT 行业,刚开始的时候做的是 Java 开发后来转岗到大数据方向做大数据开发; 刚转行到大数据开发的时候开始比较困难的,大数据并不像 Java 那样⼀套框架基本可以搞定所有的问题,而是不同的业务对于同⼀个问题有多种解决方案。转载 2022-03-14 12:22:31 · 508 阅读 · 1 评论 -
【我们是冠军】2021年大数据领域第一名の博客之星活动复盘
文章目录博客之星活动复盘:心路历程:开始的12月28日两个技巧掉分后躺进第二名最后两天 从第二名到第一名最后的助攻总结收获了哪些?付出了什么?我的取胜策略将要实习反思博客之星活动复盘:大家好,我是Maynor学长,侥幸获得了大数据领域第一名,乾坤未定,你我皆是黑马。下面我就来复盘一下整个参赛过程,以期各位读者读后能有启发:心路历程:开始的12月28日开始的12月28日中午我才知道活动开始了,当时大数据领域赛道早已挤满了人,我看到小禅在第三名 ,当时我便想能够上榜就够了。我发现很多大佬在评论区原创 2022-01-08 18:09:32 · 1409 阅读 · 20 评论 -
11月大数据面试题复习
1、Spark的有几种部署模式,每种模式特点?1)本地模式 Spark不一定非要跑在hadoop集群,可以在本地,起多个线程的方式来指定。将Spark应用以多线程的方式直接运行在本地,一般都是为了方便调试,本地模式分三类 local:只启动一个executor local[k]:启动k个executor local[*]:启动跟cpu数目相同的 executor2)standalone模式 分布式部署集群,自带完整的服务,资源管理和任务监控是Spark自己监控,这个模式也是其他模式的原创 2021-11-16 16:59:30 · 1975 阅读 · 0 评论 -
大二暑假结束我也真实体验了一回企业中的Java开发【实习纪录】
前言在暑假找份实习工作的想法,萌生在我的心里已久。找份和自己做学专业的工作,既能及时检查自己学习的成果,又能赚些生活费减轻家里负担,还可以丰富简历提升工作能力。正文求职篇我主要是用实习僧和Boss直聘两个App找工作的,Boss直聘好一些,HR会和你聊两句,约面试,实习僧投简历基本过了初筛就没下文了,聊天也不回。由于我所学的专业是数据科学与大数据,一开始想找的工作也是大数据开发岗,后来不得不面对的事实是离家近 要求低 适合大数据的工作机会太少了,不得已我只能转投Java开发,不得不说Java原创 2021-10-01 14:48:57 · 1937 阅读 · 21 评论 -
✨[面试进阶]INSERT INTO 和 INSERT OVERWRITE 的区别?(Hive篇)✨
???? 问题分析本题主要考察面试者对插入数据和覆盖数据的基本使用。???? 核心答案讲解INSERT OVERWRITE 会覆盖已经存在的数据,假如,原始表使用OVERWRITE 上的数据,先将原始表的数据Remove,再插入新数据。INSERT INTO 只是简单的插入,不考虑原始表的数据,直接追加到表中。???? 问题扩展INSERT INTO Partition时,如果分区不存在,会自动创建分区。多个INSERT INTO Partition作业并发时,如果分区不存在,会自动创建转载 2021-09-08 09:07:29 · 1462 阅读 · 0 评论 -
✨[面试进阶]在Hive数据仓库中的建模方式是?为什么选择这种建模方式?(Hive篇)✨
???? 问题分析本题主要是为了考察面试人员对于业务的熟悉和理解程度,单讲业务建模类型是相对容易的,但是切合业务进行建模就值得我们多多思考了。???? 核心问题讲解Hive作为数据仓库,同关系型数据库开发过程类似,都需要先进行建模。所谓建模,就是对表之间指定关系方式。建模在Hive中大致分为星型、雪花型和星座型。要对建模深入理解,首先需要对Hive数仓中的集中表概念进行界定。Hive中的表从形态上分内部表、外部表、桶表、分区表。在数据逻辑上划分为维度表和事实表。维度表等价于我们常说的字典表。事实转载 2021-09-07 18:57:31 · 529 阅读 · 0 评论 -
✨[面试进阶]Hive数据仓库的设计,项目中分了几层,每层有什么意义?(Hive篇)✨
???? 问题分析本题考察的是公司中数仓的真实使用场景,和面试者的理解。???? 核心问题讲解数据仓库的数据来源于不同的源数据,并提供多样的数据应用,数据自下而上流入数据仓库后,向上层开放应用,而数据仓库只是中间集成化数据管理的一个平台。源数据层(ODS):此层数据无任何更改,直接沿用外围系统数据结构和数据,不对外开放;为临时存储层,是接口数据的临时存储区域,为后一步的数据处理做准备。数据仓库层(DW):也称为细节层,DW 层的数据应该是一致的、准确的、干净的数据,即对源系统数据进行了清洗(去除了转载 2021-09-07 18:43:49 · 645 阅读 · 1 评论 -
✨[面试进阶]在开发中为什么建议使用外部表?(Hive篇)✨
1 问题分析本题主要是考察面试者对Hive内部表和外部表的了解是否透彻,对外部表的优点是否了解。2 核心答案讲解因为外部表不会加载数据到Hive,减少数据传输、数据还能共享;Hive不会修改数据,所以无需担心数据的损坏;删除表时,只删除表结构,不删除数据。3 问题扩展内部表和外部表有什么区别?4 结合项目中使用对于一些原始日志文件,同时被多个部门同时操作的时候就需要使用外部表,如果不小心将meta data删除了,HDFS上的data还在,可以恢复,增加了数据的安全性。...转载 2021-09-07 17:38:45 · 1176 阅读 · 1 评论 -
大数据面试:面试官要求我了解过Presto——Presto到底是个什么东西
前言大家好,我是程序员manor,我希望自己能成为国家复兴道路的铺路人,大数据领域的耕耘者,平凡但不甘于平庸的人。事情是这样的我在实习僧App上发现一家公司非常匹配我的需求~城市匹配技能匹配福利匹配还是一家游戏公司(典型的钱多离家近,事估计少不了了 )三配下来我不得不认真研究该公司的职位要求:一番自我检查发现,竟然有一项大数据组件听都没听过:presto这到底是个啥?有什么用?适合在哪些业务场景?如此灵魂三问后,好学如本码农自当好好研究一番。Presto是什么1.原创 2021-08-01 11:12:00 · 3219 阅读 · 13 评论 -
14道Java开发岗面试题
开头大家好,我是程序员Manor,我希望自己能成为国家复兴道路的铺路人,大数据领域的耕耘者,平凡但不甘于平庸的人。今天为大家带来14道Java开发岗面试题1、问:short s1 = 1; s1 = s1 + 1;有什么错? short s1 = 1; s1 += 1;有什么错?答:对于short s1 = 1; s1 = s1 + 1;由于s1+1运算时会自动提升表达式的类型,所以结果是int型,再赋值给short类型s1时,编译器将报告需要强制转换类型的错误。队友锁在边对于short原创 2021-07-25 16:52:20 · 659 阅读 · 1 评论 -
问我大数据怎么入门,我总结了亲身体验的学习路线推荐给她【推荐收藏】
前两天有学妹私信我说,她已经上完大一,大数据专业的,只学过大数据导论,问我大数据该如何入门?我不禁感慨普通高校擅长培养算法人才,但在工程人才的培养上存在很多的问题。原创 2021-07-21 19:28:04 · 5120 阅读 · 48 评论 -
大数据开发岗大厂面试30天冲刺 - 日积月累,每日五题【Day04】——Kafka2
前言大家好,我是manor。相信大家和我一样,都有一个大厂梦,作为一名大数据专业学生、爱好者,深知面试重要性,很多学生已经进入暑假模式,暑假也不能懈怠,正值金九银十的秋招接下来我准备用30天时间,基于大数据开发岗面试中的高频面试题,以每日5题的形式,带你过一遍热门面试题及恰如其分的解答。相信只要一路走来,日积月累,我们终会在最高处见。以古人的话共勉:道阻且长,行则将至;行而不辍,未来可期!本栏目大数据开发岗高频面试题主要出自大数据技术专栏的各个小专栏,由于个别笔记上传太早,排版杂乱,后面会原创 2021-07-20 19:43:47 · 12381 阅读 · 5 评论 -
大数据开发岗大厂面试30天冲刺 - 日积月累,每日五题【Day03】——Kafka1
前言大家好,我是manor。相信大家和我一样,都有一个大厂梦,作为一名大数据专业学生、爱好者,深知面试重要性,很多学生已经进入暑假模式,暑假也不能懈怠,正值金九银十的秋招接下来我准备用30天时间,基于大数据开发岗面试中的高频面试题,以每日5题的形式,带你过一遍热门面试题及恰如其分的解答。相信只要一路走来,日积月累,我们终会在最高处见。以古人的话共勉:道阻且长,行则将至;行而不辍,未来可期!本栏目大数据开发岗高频面试题主要出自大数据技术专栏的各个小专栏,由于个别笔记上传太早,排版杂乱,后面会原创 2021-07-19 23:12:10 · 1560 阅读 · 14 评论 -
大数据开发岗大厂面试30天冲刺 - 日积月累,每日五题【Day02】——Hive2
前言大家好,我是manor。相信大家和我一样,都有一个大厂梦,作为一名大数据专业学生、爱好者,深知面试重要性,很多学生已经进入暑假模式,暑假也不能懈怠,正值金九银十的秋招接下来我准备用30天时间,基于大数据开发岗面试中的高频面试题,以每日5题的形式,带你过一遍热门面试题及恰如其分的解答。相信只要一路走来,日积月累,我们终会在最高处见。以古人的话共勉:道阻且长,行则将至;行而不辍,未来可期!本栏目大数据开发岗高频面试题主要出自大数据技术专栏的各个小专栏,由于个别笔记上传太早,排版杂乱,后面会原创 2021-07-19 19:43:48 · 1107 阅读 · 5 评论 -
大数据开发岗面试30天冲刺 - 日积月累,每日五题【Day01】——Hive1
前言大家好,我是manor。相信大家和我一样,都有一个大厂梦,作为一名大数据专业学生、爱好者,深知面试重要性,很多学生已经进入暑假模式,暑假也不能懈怠,正值金九银十的秋招接下来我准备用30天时间,基于大数据开发岗面试中的高频面试题,以每日5题的形式,带你过一遍热门面试题及恰如其分的解答。相信只要一路走来,日积月累,我们终会在最高处见。以古人的话共勉:道阻且长,行则将至;行而不辍,未来可期!本栏目大数据开发岗高频面试题主要出自大数据技术专栏的各个小专栏,由于个别笔记上传太早,排版杂乱,后面会原创 2021-07-16 19:11:56 · 2975 阅读 · 36 评论 -
学了1年大数据,来测测你大数据技术掌握程度?大数据综合复习之面试题15问(思维导图+问答库)
前言大家好,我是ChinaManor,直译过来就是中国码农的意思,我希望自己能成为国家复兴道路的铺路人,大数据领域的耕耘者,平凡但不甘于平庸的人。时隔一年,终于把主流的大数据组件全部学完了,学成之时,便是出师之日,那为师便来考考你学的如何:问题1:Rowkey如何设计,设计规则是什么?业务原则:贴合业务,保证前缀是最常用的查询字段唯一原则:每条rowkey唯一表示一条数据组合原则:常用的查询条件组合作为Rowkey散列原则:rowkey构建不能连续长度原则:满足业务需求越短越好.原创 2021-07-09 11:03:11 · 1534 阅读 · 17 评论 -
四招搞定心仪的offer
1、背好自我介绍所有面试的第一个问题,一定是“请你先做个自我介绍吧”,无一例外!这是面试官想要通过自我介绍,来考察你的语言表达能力、临场发挥能力以及心里素质。删除线格式有些同学看到面试官就紧张,讲话磕磕绊绊;还有一些同学说话说半天,完全说不到重点,这些都会扣分的。我之前就遇到了一个求职者,个人介绍几句话就说完了,搞得气氛非常的尴尬。最后整个面试过程不到10分钟就结束了。结果不用说,肯定是没让他通过的。划重点:一个好的自我介绍,至少应包含以下几点: (1)语速不快不慢,语言逻辑清晰。从个人自身情况,.原创 2021-04-14 12:01:46 · 6834 阅读 · 1 评论 -
大数据面试题百日更新_Hive专题(Day13)
Hive和传统数据库(Mysql/Oracle)的区别在哪?查询语言不同,传统数据库用的是SQL语句,hive是集成的HQL语句.数据存储地方不同,不同于传统数据库存储在原始设备或本地文件系统(Raw Device or Local FS),Hive 存储在HDFS.执行方式不同,传统数据库是Excutor单元执行,hive是MapReduce同时hive执行延迟高,处理数据规模大,无索引(0.8版本后才加入位图索引,mysql有复杂的索引),都是hive与传统的区别....原创 2021-01-12 21:17:43 · 767 阅读 · 1 评论 -
大数据面试题百日更新_Hive专题(Day12)
2.hive 有索引吗Hive 支持索引,但是 Hive 的索引与关系型数据库中的索引并不相同,比如,Hive 不支持主键或者外键。Hive 索引可以建立在表中的某些列上,以提升一些操作的效率,例如减少MapReduce 任务中需要读取的数据块的数量。在可以预见到分区数据非常庞大的情况下,索引常常是优于分区的。虽然 Hive 并不像事物数据库那样针对个别的行来执行查询、更新、删除等操作。它更多的用在多任务节点的场景下,快速地全表扫描大规模数据。但是在某些场景下,建立索引还是可以提高 Hive原创 2021-04-11 23:27:05 · 9076 阅读 · 0 评论 -
hive 内部表和外部表的区别
1.hive 内部表和外部表的区别未被 external 修饰的是内部表(managed table),被 external 修饰的为外部表(external table)区别:1)内部表数据由 Hive 自身管理,外部表数据由 HDFS 管理;2)内部表数据存储的位置是 hive.metastore.warehouse.dir(默认:/user/hive/warehouse),外部表数据的存储位置由自己制定(如果没有 LOCATION, Hive 将在HDFS 上的/user/hive/war原创 2021-04-06 23:30:34 · 8916 阅读 · 0 评论 -
大数据面试题百日更新_Hadoop专题_Yarn专题(Day11)
调度器根据容量、队列等限制条件,将系统中的资源分配给正在运行的应用程序, 在保证容量、公平性和服务等级的前提下,优化集群资源利用率,让所有的资源都被充分利用应用程序管理器负责管理整个系统中的所有的应用程序,包括应用程序的提交、与调度器协商资源以启动 ApplicationMaster、监控 ApplicationMaster 运行状态并在失败时重启它。大的应用可能会占用所有集群资源,这就导致其它应用被阻塞,比如有个大任务在执行,占用了全部的资源,再提交一个小任务,则此小任务会一直被阻塞。原创 2021-04-04 23:52:44 · 7981 阅读 · 0 评论 -
Kafka核心理论要点
文章目录Kafka核心理论要点问题01:什么是消息队列?问题02:消息队列有什么好处?问题03:Kafka是什么?问题04:Kafka在大数据中用于什么场景下?问题05:请简述Kafka的集群架构问题06:Kafka中消费者与消费者组的关系是什么?问题07:Kafka中Topic和Partition是什么,如何保证Partition数据安全?问题08:Kafka中的Segment是什么?问题09:Kafka中的Offset是什么?问题10:请简述如何使用Kafka Simple Java API 实现数据生原创 2021-04-02 11:16:20 · 12128 阅读 · 1 评论 -
面试顺口溜
ANKI随机打好基,面对考官不愁惧,脖子以上要露出,不会也能强装13,上场之前先默背,脑子先得过一遍,答题之前不需急,问清题意很重要。原创 2021-04-02 08:15:41 · 8050 阅读 · 0 评论 -
大数据面试题百日更新_Hadoop专题(Day10)
文章目录12. 请说下 MR 中 shuffle 阶段13. shuffle 阶段的数据压缩机制了解吗12. 请说下 MR 中 shuffle 阶段13. shuffle 阶段的数据压缩机制了解吗原创 2021-03-31 19:55:44 · 6811 阅读 · 1 评论 -
大数据面试题百日更新_Hadoop专题(Day09)
请说下 MR 中 Map Task 的工作机制原创 2021-03-31 19:48:09 · 6247 阅读 · 0 评论 -
大数据面试题百日更新_Hadoop专题(Day08)
请说下 HDFS 的组织架构原创 2021-03-29 13:02:22 · 6206 阅读 · 0 评论 -
大数据面试题百日更新_Hadoop专题(Day07):
小文件过多会有什么危害,如何避免原创 2021-03-29 12:59:01 · 6148 阅读 · 0 评论 -
Hbase理论要点
文章目录Hbase理论知识点概要问题01:Hbase的功能与应用场景?问题02:Hbase有什么特点?问题03:Hbase设计思想是什么?问题04:Hbase与HDFS的区别是什么?问题05:Hbase与MySQL的区别是什么?问题06:Hbase与Hive的区别是什么?问题07:Hbase的按列存储是什么?问题08:请简述Namespace、Rowkey、ColumnFamily及多版本的功能及含义问题09:请简述Hbase的分布式主从架构问题10:请简述Table表与RegionServer的关系问题1原创 2021-03-25 16:59:22 · 5909 阅读 · 1 评论 -
大数据面试题百日更新_Hadoop专题(Day06)
文章目录大数据面试题百日更新_Hadoop专题(Day04)7. 在 NameNode HA 中,会出现脑裂问题吗?怎么解决脑裂大数据面试题百日更新_Hadoop专题(Day04)7. 在 NameNode HA 中,会出现脑裂问题吗?怎么解决脑裂原创 2021-03-25 16:17:22 · 5244 阅读 · 0 评论 -
大数据面试题百日更新_Hadoop专题(Day05)
大数据面试题百日更新_Hadoop专题(Day05)文章目录6. Secondary NameNode 不能恢复 NameNode 的全部数据,那如何 保证 NameNode 数据存储安全6. Secondary NameNode 不能恢复 NameNode 的全部数据,那如何 保证 NameNode 数据存储安全...原创 2021-03-24 15:13:07 · 1281 阅读 · 0 评论 -
大数据面试题百日更新_Hadoop专题(Day04)
文章目录5. Secondary NameNode 了解吗,它的工作机制是怎样的5. Secondary NameNode 了解吗,它的工作机制是怎样的Secondary NameNode 是合并 NameNode 的 edit logs 到 fsimage 文件中; 它的具体工作机制:(1)Secondary NameNode 询问 NameNode 是否需要 checkpoint。直接带回 NameNode 是否检查结果(2)Secondary NameNode 请求执行 checkpoint原创 2021-03-23 08:09:27 · 815 阅读 · 0 评论 -
大数据面试题百日更新索引目录
文章目录大数据面试题百日更新索引目录大数据面试题百日更新索引目录Day01:hdfs 读写文件过程Day02 :2. HDFS 在读取文件的时候,如果其中一个块突然损坏了怎么办3. HDFS 在上传文件的时候,如果其中一个 DataNode 突然挂掉了怎么办Day03 :4. NameNode 在启动的时候会做哪些操作...原创 2021-03-22 21:15:48 · 12842 阅读 · 0 评论 -
大数据面试题百日更新_Hadoop专题(Day03)
文章目录4. NameNode 在启动的时候会做哪些操作4. NameNode 在启动的时候会做哪些操作NN启动时会进行恢复文件的操作,即edits和fsimage进行合并原创 2021-03-22 15:25:12 · 791 阅读 · 0 评论 -
大数据面试题百日更新_Hadoop专题(Day02)
HDFS 在读取文件的时候,如果其中一个块突然损坏了怎么办原创 2021-03-22 13:14:39 · 840 阅读 · 0 评论 -
大数据面试题百日更新_Hadoop专题(Day01)
文章目录HadoopHadoophadoop 中常问的有三块,第一:存储,问到存储,就把 HDFS 相关的知识点拿出来;第二:计算框架(MapReduce);第三:资源调度框架(yarn)请说下 HDFS 读写流程 这个问题虽然见过无数次,面试官问过无数次,但是就是有人不能完整的说下来,所以 请务必记住。并且很多问题都是从 HDFS 读写流程中引申出来的1、hdfs 写文件过程1.客户端发起文件上传请求,通过RPC与NN(NameNode)建立通讯,NN根据检查文件,父目录是否已存在原创 2021-03-20 16:56:50 · 861 阅读 · 0 评论