面试题10

最新推荐文章于 2024-04-05 10:17:38 发布

wyju

最新推荐文章于 2024-04-05 10:17:38 发布

阅读量266

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45955039/article/details/104780584

版权

本文介绍了Hadoop集群的安装过程，详细阐述了Hadoop中的缓存机制（如Mr shuffle的DistributedCache）及其作用。接着对比了MapReduce和Hive的特点，MapReduce适合大规模数据处理，而Hive则提供类SQL查询。此外，讨论了Hive和HBase的特性，以及解决MapReduce数据倾斜的方法。还涉及协同过滤算法在个性推荐中的主要思想，并讨论了集群性能和状态监控的重要性及Nagios无法监控Hadoop集群的问题，最后给出了Namenode故障处理的两种解决方案。

摘要由CSDN通过智能技术生成

1简述hadoop集群的安装过程

https://blog.csdn.net/weixin_45955039/article/details/104779599

2.描述一下hadoop中有哪些地方使用了缓存机制作用分别是什么

Mr shuffle
缓存机制就是DistributedCash，就是在job任务执行前，将需要的文件拷贝到Task机器上进行缓存，提高mapreduce的执行效率

3.mapreduce和hive的各自特点

没有好坏，只是应用场景不同

Mapreduce的特点
开发简单可扩展性强容错性强
hive的优点
(1)简单容易上手：提供了类SQL查询语言HQL
(2)可扩展：为超大数据集设计了计算/扩展能力（MR作为计算引擎，HDFS作为存储系统）
一般情况下不需要重启服务Hive可以自由的扩展集群的规模。
(3)提供统一的元数据管理
(4)延展性：Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数
(5)容错：良好的容错性，节点出现问题SQL仍可完成执行

4.hive和hbase的特点

查询延迟，数量级亚秒级kylin，毫秒级，秒级，分钟小时级

hbase特点
1,HBase位于Hadoop生态系统的结构化存储层2,HDFS作为其底层的文件存储
3,MapReduce为Hbase提供高性能的计算能力
4,Zookeeper为HBase提供了稳定的服务和failover的能力
hive特点
1，用户接口，hive主要有三个接口，CLI(CLI启动的时候会同时气筒一个Hive的副本)，Client(hive的客户端，连结hive server)，web UI(通过浏览器访问)
2，元数据存储，hive将元数据存储在数据库中如：mysql。
3，Driver(解释器、编译器、优化器、执行器)：完成词法分析，语法分析，优化，编译，优化以及查询计划的生成，随后由MapReduce使用。
4，Hadoop ，hive的数据存储在Hdfs中。大部分的查询由MapReduce完成。

5.mapreduce的数据倾斜如何解决

1>.什么是数据倾斜
　　答：大量数据涌入到某一节点，导致此节点负载过重，此时就产生了数据倾斜。
2>.处理数据倾斜的两种方案
　　第一：重新设计key；加上随机前缀或者后缀
第二&#

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。