自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 Agent组件

一、source1.Avro Source监听Avro 端口来接收外部avro客户端的事件流 avro-source接收到的是经过avro序列化后的数据,然后反序列化数据继续传输。 源数据必须是经过avro序列化后的数据 利用Avro source可以实现多级流动、扇出流、扇入流等效果 可以接收通过flume提供的avro客户端发送的日志信息 配置说明 配置项...

2019-09-01 15:34:55 2844

原创 Flume工具

一、概述Flume最早是Cloudera提供的分布式的日志收集系统,后贡献给Apache Flume是一个高可用的,高可靠的 、健壮性,分布式的海量日志采集、聚合和传输的系统 Flume支持在日志系统中定制各类数据发送方,用于收集数据(source) Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力(sink)。二、版本Flume0.9X:又称...

2019-09-01 15:23:28 283

原创 MapReduce简介

一、概述MapReduce是一种分布式计算模型 由谷歌提出,基于GFS进行设计,主要用于搜索领域中解决海量数据的计算问题 Doug Cutting根据《MapReduce: Simplified Data Processing on Large Clusters》设计实现了Hadoop中基于HDFS的MapReduce MapReduce是由两个阶段组成:Map和Reduce,用户只需要...

2019-08-30 08:33:35 297

原创 HDFS执行流程

执行流程一、 读取流程(下载)客户端Client向NameNode发起RPC请求 NameNode在收到请求之后,会先进行校验,例如文件是否存在等 校验完成之后,会将这个文件所对应的存储Block的节点地址放入一个队列中(文件分的块中,每个块有3个副本,每一次先给客户端一个块的3副本的存储地址。放地址的原因是为了保证hdfs的高吞吐),返回给客户端。 客户端收到队列之后,从...

2019-08-26 18:42:23 749

原创 HDFS详解

技术细节一、HDFS的架构图二、Block数据块(Block)是HDFS中数据的最基本的存储单位 当在HDFS上存储超大文件时,HDFS会以一个标准将文件切分成几块,分别存储到不同的节点上,切出的数据就称为Block Block 默认的大小在Hadoop1.0中是64M,在Hadoop2.0中是128M 切块的优点: 文件块可以保存在不同的节点上,能够存储超大2文件...

2019-08-24 12:17:17 879

原创 大数据简介

一、概述研究机构Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产 根据维基百科的定义,大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合二、特征Volume:数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是T、P(1024个T)、E(100万个T)...

2019-08-22 19:38:31 140

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除