hadoop
Rbdash
你强不强我不知道,反正我是真的菜
展开
-
11.28学习笔记(hadoop)
Hadoop是一个开源框架,可编写和运行分布式应用处理大规模数据,已经成长为一个庞大的生态体系。只要和海量数据相关的领域,就有 Hadoop 身影。Hadoop框架的核心是HDFS、MapReduce、YarnHDFS 是分布式文件系统,提供海量数据的存储HBase是面向列的数据库,运行在HDFS之上,HBase以BigTable为蓝本,可以快速在数十亿行数据中随机存取数据HDFS:优点...转载 2018-11-29 00:17:11 · 338 阅读 · 0 评论 -
11.29学习笔记(hadoop)
shuffle过程shuffle是对map输出结果进行分区、排序、合并等处理并交给reduce的过程。因此shuffle过程分为map端和reduce端的操作。map端:map输出结果首先被写入缓存,当缓存满时就启动溢写操作,将缓存中的数据写入磁盘文件,并清空缓存。当启动溢写操作时,首先需要把缓存中的数据进行分区,然后对每个分区的数据进行排序(Sort)和合并(Combine),之后再写入磁盘...转载 2018-11-29 14:36:33 · 315 阅读 · 0 评论 -
11.26学习笔记(hadoop)
TEZ:将MR作业进行分析优化,构建成一个有向无环图Spark和MR逻辑一样,但是Spark基于内存,MR基于磁盘,故Spark性能比MR高HIVE:实现数据仓库功能对历史数据进行分析,把SQL语句转化成MR作业执行(批量数据处理)PIG:流数据处理,轻量级数据分析Oozie:工作流管理工具Zookeeper:分布式协调一致性服务HDFS:分布式文件系统HBase:非关系型的分布式...转载 2018-11-26 19:22:33 · 115 阅读 · 0 评论