![](https://img-blog.csdnimg.cn/20190927151101105.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据工具
文章平均质量分 95
大数据工具组件,spark、hadoop、hive等
赵队
一个兴趣使然的非科班算法工程师
展开
-
MapReduce小结
参考资料 什么是MapReduce,MapReduce的工作流程和原理是什么 mapreduce中split划分分析(新版api) mr!shuffle详细全过程 MapReduce概况 MapReduce是谷歌提出的一种分布式计算框架,用于大规模数据集的并行运算。MapReduce更像是一种思想,而框架只是这种思想的实现。MapReduce将数据的处理过程提炼成两个足够通用的步骤,即Map和Reduce,通过使用代码自定义这两部分,MapReduce几乎可以处理所有形式的需求。MapReduce的设计理念原创 2021-02-11 12:27:46 · 824 阅读 · 1 评论 -
HDFS小结
参考资料: 1、百度百科——Hadoop 2、初识HDFS(10分钟了解HDFS、NameNode和DataNode) 3、大牛笔记——【Hadoop】HDFS的运行原理 简介 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。Hadoop主要由HDFS、MapReduce和HBase组成。受启发于谷歌的三篇论文:分别关于GFS、MapReduce和BigTable,也可以说是这三种技术的一个实原创 2021-02-09 14:53:49 · 291 阅读 · 3 评论