hadoop
WaterBigchicken
这个作者很懒,什么都没留下…
展开
-
大数据笔记之Flume
Flume 由Cloudera公司开源的分布式、可靠、高可用的海量日志采集系统。数据源可定制,可扩展; 数据存储系统可定制,可扩展。 特点 可靠性:保证数据不丢失 可扩展性:各组件数目可扩展 高性能:吞吐率很高,能满足海量数据收集需求 可管理性:可动态增加和删除组件 文档丰富,社区活跃 已成为Hadoop生态系统标配 NG架构 Master 管理协调 agent 和coll...原创 2019-04-04 20:31:17 · 297 阅读 · 0 评论 -
大数据笔记之Kafka
Kafka Kafka是一个高吞吐的分布式消息系统。同时为发布和订阅提高吞吐量,可进行持久化操作,将消息持久化到磁盘,因此可用于批量消费。分布式系统,易于向外扩展。所有的producer,broker和consumer都会有多个,无需停机即可扩展机器。消息处理的状态是在consumer端维护,而不是由server端维护。当失败时能自动平衡。 设计:消息保存在磁盘,O(1)时间复杂度,消费状态保...原创 2019-03-13 20:29:19 · 351 阅读 · 0 评论 -
大数据之Storm
Storm 为hadoop提供流处理,运维简单,高度容错,支持多种语言的实时数据处理系统。 Storm集群主要由一个主节点和一群工作节点组成,通过Zookeeper集群协调。 集群架构: Nimbus:主节点运行的一个后台程序,用于响应分布在集群中节点,分配任务和检测故障。 Supervisor:工作节点运行的一个后台程序,用于收听工作指派并基于要求工作进程。 Top...原创 2019-03-13 10:46:09 · 322 阅读 · 0 评论 -
大数据笔记之HIVE
HIVE 构建于Hadoop的HDFS和mapreduce之上,用于管理和查询结构化/非结构化数据的数据仓库。使用HQL作为查询接口,HDFS作为底层存储,使用Mapreduce作为执行层。 HIVE是基于Hadoop分布式处理系统的数据仓库技术,Hive集成了SQL技术,提供了类似SQL的查询语言,即HQL,用于查询Hadoop集群中的数据。 HIVE应用框架 ...原创 2019-03-13 09:33:38 · 314 阅读 · 0 评论 -
大数据笔记之ZooKeeper
ZooKeeper作用 解决分布式环境下多个进程之间的同步控制,让他们有序地去访问某个临界资源,防止读取"脏数据"。可利用分布式锁的方式解决该问题,而分布式锁会面临网络不可靠等问题,所以诞生ZooKeeper来解决上述问题。其有着通用性号,伸缩性好,高可靠,高可用的特点。 Zookeeper集群 leader角色(Paxos协议):接受client请求,也接受其他server转发的请求,负责...原创 2019-03-12 16:58:19 · 174 阅读 · 0 评论 -
大数据笔记之YARN
Hadoop2.0 由HDFS,MR,YARN三部分组成。其中HDFS:支持NN Federation、HA。 MapReduce:运行在YARN上的MR,编程模型不变。 YARN:资源管理系统。 YARN框架 ResourceManager:处理客户端请求,启动/监控ApplicationMaster,监控NodeManager,资源分配与调度。 NodeManager...原创 2019-03-12 15:39:09 · 198 阅读 · 0 评论 -
大数据笔记之MapReduce原理
MapReduce原理 Mapreduce是一种“分而治之”的思想,把大任务拆解为多个小任务 原理流程 框架解剖图 输入数据分块InputSplits:InputSplit定义了输入到单个Map任务的输入数据,一个MapReduce程序被统 称为一个Job,可能有上百个任务构成。InputSplit将文件分为64MB。 RR(RecordReader):称数据记录读入,其作用定...原创 2019-03-12 11:06:01 · 350 阅读 · 0 评论 -
大数据笔记之HDFS架构
HDFS架构 节点分为两类:一类叫“主节点”(Master Node)或者也被称为“名称结点”(NameNode),另一类叫“从节点”(Slave Node)或者也被称为“数据节点”(DataNode) NameNode(NN):负责管理集权的命名空间,并且为所有文件和目录维护一个树状结构的元数据信息。元数据持久化存储在硬盘中。保存文件,block ,datanode之间的映射关系。全权管理数...原创 2019-03-12 10:11:21 · 475 阅读 · 0 评论 -
大数据笔记之HA(High Availability)
HA——High Availability HA的作用:1.解决单点故障问题,比如主节点宕机或者主节点软件或硬件升级,导致集群在短时间内不可用。 2.提升集群容量和集群性能 ...原创 2019-03-11 16:14:48 · 1252 阅读 · 0 评论 -
大数据笔记之Oozie
Oozie Oozie在hadoop生态圈中把多个Map/Reduce作业组合到一个逻辑工作单元中,从而完成更大的任务。是一种Java Web应用程序,它运行在Java servlet容器。 功能 主要用于管理与组织Hadoop工作流。Oozie的工作流必须是一个有向无环图,实际上Oozie就相当于Hadoop的一个客户端,当用户需要执行多个关联的MR任务时,只需要将MR执行顺序写入work...原创 2019-03-14 10:55:54 · 224 阅读 · 0 评论 -
大数据笔记之sqoop
sqoop sqoop是 apache 旗下一款“Hadoop 和关系数据库服务器之间传送数据”的工具。本质就是迁移数据, 就是把sqoop的迁移命令转换成MR程序 功能 导入数据:MySQL,Oracle 导入数据到 Hadoop 的 HDFS、HIVE、HBASE 等数据存储系统 导出数据:从 Hadoop 的文件系统中导出数据到关系数据库 mysql 等 Sqoop 的本质...原创 2019-03-14 10:41:37 · 211 阅读 · 0 评论 -
大数据之PIG
PIG PIG是Hadoop生态环境下的用于分析代表数据流的工具,要编写数据分析程序,Pig提供了一种称为Pig Latin的高级语言。该语言提供了各种运营商使用哪些程序员可以开发自己的功能来读取,写入和处理数据。使用Pig Latin,程序员可以轻松执行MapReduce任务,而无需在Java中输入复杂代码。Apache Pig使用多查询方法,从而缩短代码长度。Pig Latin是...原创 2019-03-14 10:29:35 · 1002 阅读 · 0 评论 -
大数据之Spark
背景: 由于MapReduce框架仅支持map和reduce两种操作,且迭代计算效率低,不适合交互式处理(数据挖掘),流式处理,不支持函数式编程语言(scala)。之前各种技术框架如,批处理的:HIVE,PIG,Mapreduce。流计算的storm,交互式计算的Impala,而spark是在此基础上的集大成者!统一了框架! 特点: 高效:基于内存的计算框架,比Mapreduce...原创 2019-03-13 21:04:44 · 260 阅读 · 0 评论