面试题10

本文介绍了Hadoop集群的安装过程,详细阐述了Hadoop中的缓存机制(如Mr shuffle的DistributedCache)及其作用。接着对比了MapReduce和Hive的特点,MapReduce适合大规模数据处理,而Hive则提供类SQL查询。此外,讨论了Hive和HBase的特性,以及解决MapReduce数据倾斜的方法。还涉及协同过滤算法在个性推荐中的主要思想,并讨论了集群性能和状态监控的重要性及Nagios无法监控Hadoop集群的问题,最后给出了Namenode故障处理的两种解决方案。
摘要由CSDN通过智能技术生成

1简述hadoop集群的安装过程

https://blog.csdn.net/weixin_45955039/article/details/104779599

2.描述一下hadoop中 有哪些地方使用了缓存机制 作用分别是什么

Mr shuffle
缓存机制就是DistributedCash,就是在job任务执行前,将需要的文件拷贝到Task机器上进行缓存,提高mapreduce的执行效率

3.mapreduce和hive的各自特点

没有好坏,只是应用场景不同

  • Mapreduce的特点
    开发简单 可扩展性强 容错性强
  • hive的优点
    (1)简单容易上手:提供了类SQL查询语言HQL
    (2)可扩展:为超大数据集设计了计算/扩展能力(MR作为计算引擎,HDFS作为存储系统)
    一般情况下不需要重启服务Hive可以自由的扩展集群的规模。
    (3)提供统一的元数据管理
    (4)延展性:Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数
    (5)容错:良好的容错性,节点出现问题SQL仍可完成执行

4.hive和hbase的特点

查询延迟,数量级 亚秒级kylin,毫秒级,秒级,分钟小时级

  • hbase特点
    1,HBase位于Hadoop生态系统的结构化存储层2,HDFS作为其底层的文件存储
    3,MapReduce为Hbase提供高性能的计算能力
    4,Zookeeper为HBase提供了稳定的服务和failover的能力
  • hive特点
    1,用户接口,hive主要有三个接口,CLI(CLI启动的时候会同时气筒一个Hive的副本),Client(hive的客户端,连结hive server),web UI(通过浏览器访问)
    2,元数据存储,hive将元数据存储在数据库中如:mysql。
    3,Driver(解释器、编译器、优化器、执行器):完成词法分析,语法分析,优化,编译,优化以及查询计划的生成,随后由MapReduce使用。
    4,Hadoop ,hive的数据存储在Hdfs中。大部分的查询由MapReduce完成。

5.mapreduce的数据倾斜如何解决

1>.什么是数据倾斜
  答:大量数据涌入到某一节点,导致此节点负载过重,此时就产生了数据倾斜。
2>.处理数据倾斜的两种方案
  第一:重新设计key; 加上随机前缀或者后缀
第二&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值