自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 FLUME-KAFKA-SPARK STREAMING -实时计算框架搭建

首先,我们需要一个模拟实时数据,用来生成日志文件File ctoFile = new File(args[0]); File dest=new File(args[1]); InputStreamReader rdCto = new InputStreamReader(new FileInputStream(ctoFile)); OutputStreamWriter writer=new...

2019-02-17 19:25:38 314 1

原创 HIVE-Hive搭建

文章目录Hive安装mysql安装hiveserver2搭建与可视化客户端安装Hive安装先决条件java1.7及以上hadoop 2.X以上下载地址http://archive.apache.org/dist/hive/下载版本:1.2.1 上传到linux系统并解压tar -zxvf apache-hive-xxxxx创建软连接ln -s apache-hive-1.2...

2019-02-17 10:54:20 591

原创 HIVE-Hive的简单概述

什么是Hive?Hive是一种构建数据仓库的工具。里面有表的概念。在Mysql里从表中插入的数据,会放在磁盘上。再打开这个表的时候,会把磁盘上的数据规整到一个表格里显示。但是计算机不会自己规整成表格,所以在Hive中需要一份元数据这份元数据包括:元数据(行的分隔符(这样在映射成表的时候知道能映射成几行)字段分隔符(这样在映射成表的时候知道能映射成几列)字段的类型字段的名称)...

2019-02-17 10:19:11 301

原创 HBASE-HBase概述

什么是HBase?HBase是一种非关系型数据库(NoSQL)。 “NoSQL"是一个通用词表示数据库不是RDBMS(关系型数据库管理系统),后者支持 SQL 作为主要访问手段。有许多种 NoSQL 数据库: BerkeleyDB 是本地 NoSQL 数据库例子, 而 HBase 是大型分布式数据库。 从技术上来说, HBase 更像是"数据存储(Data Store)” 多于 “数据库(Dat...

2019-02-12 16:22:28 362

原创 HDFS-HA搭建(基于完全分布式)

hadoop HA(高可用)Quorum Journal Manager:以共享活动和备用NameNode之间的编辑日志影响了HDFS集群(导致namenode发生故障)对于计划外事件(例如计算机崩溃),在操作员重新启动NameNode之前,群集将不可用。计划维护事件(如NameNode计算机上的软件或硬件升级)将导致群集停机时间窗口。注意:必须至少有3个JournalNode守护进程...

2019-02-12 14:32:07 466 1

原创 MAP/REDUCE-shuffle流程简单概述

我简单地将shuffle流程分成以下两部分:map task程序会根据InputFormat将输入文件分割成splits,每个split会作为一个map task的输入,每个map task会有一个内存缓冲区,输入数据经过map阶段处理后的中间结果会写入内存缓冲区(环形缓冲区,这个暂时就不深入了),并且决定数据写入到哪个partitioner,当写入的数据到达内存缓冲区的的阀值(默认是0.8...

2019-02-11 11:12:26 464

原创 MAP/REDUCE-map-reduce详解

MapReduce是什么?Hadoop MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。这个定义里面有着这些关键词:一是软件框架,二是并行处理,三是可靠且容错,四是大规模集群,五是海量数据集。MapReduce做什么?MapReduce擅...

2019-02-11 10:34:55 1259

原创 HDFS-剖析文件写入(写流程)

写流程解析public static void main(String[] args) throws Exception { //加载本地指定目录下的文件 InputStream is = new BufferedInputStream(new FileInputStream("D:/123/word.txt")); //获取配置文件 Configuration ...

2019-02-10 15:39:20 573

原创 HDFS-HDFS体系架构

一、体系架构HDFS 采用的是master/slaves主从结构模型来管理数据,这种结构模型主要由四个部分组成:Client(客户端)、Namenode(名称节点)、Datanode(数据节点)和SecondaryNamenode(第二名称节点,辅助Namenode)。一个真正的HDFS集群包括一个Namenode和若干数目的Datanode。Namenode是一个中心服务器,负责管理文件系统...

2019-02-08 11:11:02 4216

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除