![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
AbelRose
这个作者很懒,什么都没留下…
展开
-
【Flume】— Flume
Flume概念:Cloudera提供的高可用、高可靠、分布式的海量日志***收集***、***整合和传输***的系统。基础架构:Agent一个JVM进程 以***Event***的形式将数据从源头送至目的,包含三个部分。Source:负责接收数据到Flume Agent 组件。(包括 avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy 等类型。)Sink:不断原创 2020-09-03 11:46:35 · 135 阅读 · 0 评论 -
【Hive】— Hive
HiveFacebook 开源的 用于解决海量***结构化*** 日志的数据统计。基于Hadoop的***数据仓库工具*** 。可以将结构化的数据文件映射为一张表,并提供***类SQL***查询功能。本质是: 将HQL转化成MapReduce程序1)Hive处理的数据存储在HDFS2)Hive分析数据底层的实现是MapReduce3)执行程序运行在Yarn上优点操作接口采用***类SQL语法***,提供快速开发的能力(简单、容易上手)。避免了去写MapReduce,减少开发人员的学习成本原创 2020-08-19 17:56:36 · 212 阅读 · 0 评论 -
【Hadoop】— HadoopHA
HadoopHAHadoopHA(Hadoop High Available) 高可用 必须有容错机制HDFS —> NNYARN —> RM如要实现Hadoop的HA,必须保证在NN或RM出现故障时 可以让集群继续使用(避免单点故障)。HDFS —> NN正在提供服务的NN, 必须和备用的NN保持相同的元数据步骤:在active的nn格式化后,将空白的fsimage文件拷贝到所有的nn的机器上active的nn在启动后,将edits文件中的内容发送给Jour原创 2020-08-18 16:25:03 · 93 阅读 · 0 评论 -
【Hadoop】— zookeeper
zookeeper Zookeeper是什么官方文档上这么解释zookeeper,它是一个分布式服务框架,是Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。上面的解释有点抽象,简单来说zookeeper=文件系统+监听通转载 2020-08-13 10:42:21 · 101 阅读 · 0 评论 -
【Hadoop】— MapReduce Hadoop数据压缩
【Hadoop】— MapReduce Hadoop数据压缩原创 2020-08-05 17:22:06 · 90 阅读 · 0 评论 -
【Hadoop】— MapReduce(分布式运算程序编程框架)
【Hadoop】— MapReduce(分布式运算程序编程框架)原创 2020-07-30 11:33:39 · 370 阅读 · 0 评论 -
【Hadoop】— HDFS(Hadoop分布式文件系统)
Hadoop — HDFS原创 2020-07-24 11:09:20 · 198 阅读 · 0 评论 -
【Hadoop】— 初入江湖
Hadoop原创 2020-07-22 17:08:49 · 99 阅读 · 0 评论