Hadoop-MapReduce机制原理

最新推荐文章于 2023-08-09 22:00:00 发布

H.S.T不想卷

最新推荐文章于 2023-08-09 22:00:00 发布

阅读量801

点赞数 2

分类专栏：大数据文章标签： hadoop mapreduce 大数据

本文链接：https://blog.csdn.net/weixin_44894162/article/details/126246539

版权

12 篇文章 2 订阅

订阅专栏

Hadoop MapReduce是一个分布式计算框架，用于轻松编写分布式应用程序，这些应用程序以可靠，容错的方式并行处理大型硬件集群（数千个节点）上的大量数据（多TB数据集）；

一个最终完整版本的MR程序需要用户编写的代码和Hadoop自己实现的代码整合在一起才可以；
其中用户负责map、reduce两个阶段的业务问题，Hadoop负责底层所有的技术问题；
由于MapReduce计算引擎天生的弊端（慢），当下企业中直接使用率已经日薄西山了，所以在企业中工作很少涉及到MapReduce直接编程，但是某些软件的背后还依赖MapReduce引擎

特点	内容
易于编程	Mapreduce框架提供了用于二次开发的接口，方便用户使用和开发
扩展性强	资源不够用的情况下，可以快速扩容，增加节点
高容错性	分布式搭建和部署，任何单一机器节点宕机，不影响整个作业任务得完成。
处理海量离线数据	可以处理GB、TB和PB级别的数据量

局限性	内容
实时计算性能差	MapReduce主要应用于离线作业，无法作到秒级或者是亚秒级得数据响应。
不能流式计算	流式计算特点是数据源源不断的计算，也就是说数据是动态的；而MapReduce作为一个离线计算框架，主要是针对静态数据集，数据是不能动态变化的。