![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
Rbdash
你强不强我不知道,反正我是真的菜
展开
-
11.28学习笔记(hadoop)
Hadoop是一个开源框架,可编写和运行分布式应用处理大规模数据,已经成长为一个庞大的生态体系。只要和海量数据相关的领域,就有 Hadoop 身影。 Hadoop框架的核心是HDFS、MapReduce、Yarn HDFS 是分布式文件系统,提供海量数据的存储 HBase是面向列的数据库,运行在HDFS之上,HBase以BigTable为蓝本,可以快速在数十亿行数据中随机存取数据 HDFS:优点 ...转载 2018-11-29 00:17:11 · 344 阅读 · 0 评论 -
11.29学习笔记(hadoop)
shuffle过程 shuffle是对map输出结果进行分区、排序、合并等处理并交给reduce的过程。因此shuffle过程分为map端和reduce端的操作。 map端:map输出结果首先被写入缓存,当缓存满时就启动溢写操作,将缓存中的数据写入磁盘文件,并清空缓存。当启动溢写操作时,首先需要把缓存中的数据进行分区,然后对每个分区的数据进行排序(Sort)和合并(Combine),之后再写入磁盘...转载 2018-11-29 14:36:33 · 323 阅读 · 0 评论 -
11.26学习笔记(hadoop)
TEZ:将MR作业进行分析优化,构建成一个有向无环图 Spark和MR逻辑一样,但是Spark基于内存,MR基于磁盘,故Spark性能比MR高 HIVE:实现数据仓库功能对历史数据进行分析,把SQL语句转化成MR作业执行(批量数据处理) PIG:流数据处理,轻量级数据分析 Oozie:工作流管理工具 Zookeeper:分布式协调一致性服务 HDFS:分布式文件系统 HBase:非关系型的分布式...转载 2018-11-26 19:22:33 · 118 阅读 · 0 评论