"小菜鸟"-CSDN博客

原创 Agent组件

一、source 1.Avro Source 监听Avro 端口来接收外部avro客户端的事件流 avro-source接收到的是经过avro序列化后的数据，然后反序列化数据继续传输。源数据必须是经过avro序列化后的数据利用Avro source可以实现多级流动、扇出流、扇入流等效果可以接收通过flume提供的avro客户端发送的日志信息配置说明配置项 ...

2019-09-01 15:34:55 2906

原创 Flume工具

一、概述 Flume最早是Cloudera提供的分布式的日志收集系统，后贡献给Apache Flume是一个高可用的，高可靠的、健壮性，分布式的海量日志采集、聚合和传输的系统 Flume支持在日志系统中定制各类数据发送方，用于收集数据(source) Flume提供对数据进行简单处理，并写到各种数据接受方(可定制)的能力(sink)。二、版本 Flume0.9X：又称...

2019-09-01 15:23:28 318

原创 MapReduce简介

一、概述 MapReduce是一种分布式计算模型由谷歌提出，基于GFS进行设计，主要用于搜索领域中解决海量数据的计算问题 Doug Cutting根据《MapReduce: Simplified Data Processing on Large Clusters》设计实现了Hadoop中基于HDFS的MapReduce MapReduce是由两个阶段组成：Map和Reduce，用户只需要...

2019-08-30 08:33:35 319

原创 HDFS执行流程

执行流程一、读取流程（下载）客户端Client向NameNode发起RPC请求 NameNode在收到请求之后，会先进行校验，例如文件是否存在等校验完成之后，会将这个文件所对应的存储Block的节点地址放入一个队列中（文件分的块中，每个块有3个副本，每一次先给客户端一个块的3副本的存储地址。放地址的原因是为了保证hdfs的高吞吐），返回给客户端。客户端收到队列之后，从...

2019-08-26 18:42:23 787

原创 HDFS详解

技术细节一、HDFS的架构图二、Block 数据块（Block）是HDFS中数据的最基本的存储单位当在HDFS上存储超大文件时，HDFS会以一个标准将文件切分成几块，分别存储到不同的节点上，切出的数据就称为Block Block 默认的大小在Hadoop1.0中是64M，在Hadoop2.0中是128M 切块的优点：文件块可以保存在不同的节点上，能够存储超大2文件 ...

2019-08-24 12:17:17 928

原创大数据简介

一、概述研究机构Gartner给出了这样的定义：“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产根据维基百科的定义，大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合二、特征 Volume：数据量大，包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是T、P（1024个T）、E（100万个T）...

2019-08-22 19:38:31 164

weixin_45555360的博客

原创 Agent组件

原创 Flume工具

原创 MapReduce简介

原创 HDFS执行流程

原创 HDFS详解

原创大数据简介

空空如也

空空如也

原创 Agent组件

原创 Flume工具

原创 MapReduce简介

原创 HDFS执行流程

原创 HDFS详解

原创 大数据简介

空空如也

空空如也

原创大数据简介