大数据
文章平均质量分 70
翊小宸
决定你人生的不仅仅是能力,还有你的格局。
展开
-
大数据编程之Scala语言
Scala面试 Scala声明变量推荐使用val Scala是一种强类型语言,使用前变量的类型必须确定,编译器将语法补全,代码可以简化 能推断出变量的类型,那么这个类型可以省略 Java中变量的初始化可以在执行前完成,不需要必须在声明时完成 Scala在声明变量的同时需要初始化变量 1. Scala开发环境搭建 2. 变量和数据类型 (1) 掌握var和val的区别 可变变量使用关键字var进行声明 值可以发生变化 object ScalaVariable { def main(a原创 2021-10-20 20:15:40 · 746 阅读 · 0 评论 -
ZooKeeper协调服务机制
1. 请简述ZooKeeper的选举机制 2. ZooKeeper的监听原理是什么? 3. ZooKeeper的部署方式有哪几种?集群中的角色有哪些?集群中最少需要几台机器? (1)ZooKeeper的部署方式有两种, 一种是单机模式, 一种是集群模式 (2)集群中的角色一共有两种, 一种是Leader, 一种是Follower (3)集群中最少需要3台机器, 我们在部署集群时, 一般部署的是奇数台, 不部署偶数台机器, 举个例子, 部署3台机器和部署4台机器的容错性是相同的, 为了避免资源浪费, 部署3台原创 2021-10-14 17:02:48 · 213 阅读 · 0 评论 -
hadoop-压缩-优化-HA
1. Hadoop中的压缩作为一种常用的优化手段,经常被用在什么场景下? 数据规模很大和工作负载密集的情况下, 比如说在处理Mapper, Reducer运行过程的数据时进行压缩, 以减少磁盘IO, 提高MR的运行速度 2. 如果想要使用压缩,Hadoop如何对某一种压缩编码格式进行取舍? 从多方面来看, 首先判断是否属于Hadoop自带, 其次需要看其是否支持切分, 换成压缩格式后, 原来的程序是否需要修改, 然后就是看性能了, 压缩速度和解压速度. 3. 你们公司常用的压缩方式有哪些? Gzip Bzi原创 2021-10-14 16:27:26 · 570 阅读 · 0 评论 -
YARN资源调度
1. MR中的一个Job是如何提交的? 首先我们要先判断当前Job的状态是否为定义阶段, 如果是我们提交一个submit()方法, 然后我们需要确认当前Job的状态, 新老API是否兼容, 接着我们就开始连接集群, 如果我们连接的是本地模式结果就是LocalRunner, 如果连接的是Yarn集群结果就是YARNRuuner; 在提交Job之前需要检验一下输入输出路径是否合法, 并且给当前的Job计算一下切片信息, 然后添加一下分布式缓存文件, 将所有必要的内容都拷贝到job执行的临时目录,比方说一些ja原创 2021-10-14 14:12:33 · 491 阅读 · 0 评论 -
MapReduce分布式计算框架
1.描述一下手写MR的大概流程和规范 Mapper阶段: (1)每个map任务,都会继承Mapper类,用户自定义WordCountMapper继承了Mapper类 (2)其中Mapper有四个参数类型<KEYIN, VALUEIN, KEYOUT, VALUEOUT>,对应的为WordCountMapper<LongWritable, Text, Text, IntWritable> (3)重写map方法(如果实验文件有n行,故文件所在的Mapper类都单独调用了n次map方法)原创 2021-09-15 19:58:59 · 743 阅读 · 2 评论 -
HDFS分布式文件系统
1. 描述一下HDFS的数据写入流程 (1)首先,客户端Client通过创建DistributedFileSystem向NameNode发送请求上传文件, NameNode检验目标文件是否存在, 父目录是否存在, 文件是否合法以及其是否具有相应的权限 (2)校验通过之后, NameNode响应客户端可以开始上传文件 (3) Client对即将上传的文件进行切块(一个Block最大128M), 并再次向NameNode发出请求, 上传第一个Block, 等待NameNode返回存储的DataNode, (4)原创 2021-09-13 19:27:44 · 334 阅读 · 3 评论