1简述hadoop集群的安装过程
https://blog.csdn.net/weixin_45955039/article/details/104779599
2.描述一下hadoop中 有哪些地方使用了缓存机制 作用分别是什么
Mr shuffle
缓存机制就是DistributedCash,就是在job任务执行前,将需要的文件拷贝到Task机器上进行缓存,提高mapreduce的执行效率
3.mapreduce和hive的各自特点
没有好坏,只是应用场景不同
- Mapreduce的特点
开发简单 可扩展性强 容错性强 - hive的优点
(1)简单容易上手:提供了类SQL查询语言HQL
(2)可扩展:为超大数据集设计了计算/扩展能力(MR作为计算引擎,HDFS作为存储系统)
一般情况下不需要重启服务Hive可以自由的扩展集群的规模。
(3)提供统一的元数据管理
(4)延展性:Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数
(5)容错:良好的容错性,节点出现问题SQL仍可完成执行
4.hive和hbase的特点
查询延迟,数量级 亚秒级kylin,毫秒级,秒级,分钟小时级
- hbase特点
1,HBase位于Hadoop生态系统的结构化存储层2,HDFS作为其底层的文件存储
3,MapReduce为Hbase提供高性能的计算能力
4,Zookeeper为HBase提供了稳定的服务和failover的能力 - hive特点
1,用户接口,hive主要有三个接口,CLI(CLI启动的时候会同时气筒一个Hive的副本),Client(hive的客户端,连结hive server),web UI(通过浏览器访问)
2,元数据存储,hive将元数据存储在数据库中如:mysql。
3,Driver(解释器、编译器、优化器、执行器):完成词法分析,语法分析,优化,编译,优化以及查询计划的生成,随后由MapReduce使用。
4,Hadoop ,hive的数据存储在Hdfs中。大部分的查询由MapReduce完成。
5.mapreduce的数据倾斜如何解决
1>.什么是数据倾斜
答:大量数据涌入到某一节点,导致此节点负载过重,此时就产生了数据倾斜。
2>.处理数据倾斜的两种方案
第一:重新设计key; 加上随机前缀或者后缀
第二&#