自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 Yarn结构概览

Yarn结概览 本文内容总结自《Hadoop技术内幕—深入解析Yarn架构设计与实现原理》 一.关于Yarn 1.1 Yarn是什么? YARN 是 Hadoop 2.0 中的资源管理系统,它是一个通用的资源管理模块,可为各类应用程序进行资源管理和调度。YARN 不仅限于 MapReduce 一种...

2019-03-10 11:19:25

阅读数 68

评论数 0

原创 HBase之HFile解析

HBase之HFile解析 参考网址: http://www.thebigdata.cn/HBase/29513.html http://www.thebigdata.cn/HBase/29564.html 一.HFile介绍:(前言) HFile是HBase中重要的一个存在,可以说是H...

2019-04-04 11:25:40

阅读数 4716

评论数 0

原创 Spark内存管理(二)——统一(动态)内存管理模型

一 .简介 spark从1.6开始引入了动态内存管理模式,即执行内存和存储内存之间可以互相抢占。所以从spark 1.6以后,spark提供两种内存分配模式,即:静态内存管理和统一内存管理(有的地方也称动态内存管理)。 在上一篇文章末尾,我们陈述了传统spark静态内存管理模式的局限性: (1) ...

2019-02-17 23:29:55

阅读数 78

评论数 0

原创 Spark内存管理(一)——静态内存管理模型

Spark静态内存管理模型 一 .简介 spark从1.6开始引入了动态内存管理模式,即执行内存和存储内存之间可以互相抢占。所以从spark 1.6以后,spark提供两种内存分配模式,即:静态内存管理和动态内存管理。 该篇文章主要针对spark静态内存管理进行了分析与说明 二 . 模型总览 从下...

2019-02-14 19:36:43

阅读数 128

评论数 1

原创 HBase Compaction分析

HBase Compaction分析 一 简介 参考:https://blog.csdn.net/cangencong/article/details/72763265 参考:https://my.oschina.net/u/220934/blog/363270 参考:https://blog.c...

2019-01-05 19:13:34

阅读数 258

评论数 0

原创 PUT服务器端写入过程+源码分析

PUT服务器端写入过程+源码分析 本文主要内容: mem写入+wal写入 过程和源码分析 前言 HBase是一种基于LSM模型的分布式数据库。LSM的全称是Log-Structured Merge-Trees,即日志-结构化合并-树。LSM模型的最大特点就是,在读写之间采取一种平衡,牺牲部...

2018-10-15 19:36:01

阅读数 189

评论数 0

原创 HBase put过程客户端+服务端初步解析

HBase put过程客户端+服务端初步解析 本文将对HBase采用客户端put的方式,结合源码对整个过程进行解析。 对于服务端的解析,本文并没有说的很详细,只是阐述了整个流程,在后面的一片文章将会详细说明服务端的具体过程 PUT 客户端 HBase的client写入过程都是先创建pu...

2018-10-05 21:56:38

阅读数 297

评论数 0

原创 HBase HFile bulkLoad过程详解

HBase bulkLoad过程详解 前言 在https://blog.csdn.net/yulin_Hu/article/details/82313965 描述了Spark如何生成HFile,及其过程。 生成HFile之后,就需要将HFile load进hbase。本...

2018-09-02 12:41:39

阅读数 1410

评论数 2

原创 Spark 生成HFile过程详解

Spark 生成HFile过程详解 前言 直接生成hfile的目的是跨过使用hbase客户端,减小客户端,服务器压力。面对每天要往habse写大量数据的情况的时非常有优势。 因为 hfile的生成这一步 可以完全不跟HBase打交道,不像使用put请求,我们要不断地向hbase服务器发送R...

2018-09-02 11:23:31

阅读数 1732

评论数 0

原创 Maven打zip包

maven三种打包插件 maven有多种可以打包的插件,如下: plugin function 官网 maven-jar-plugin maven 默认打包插件,用来创建 project jar maven-shade-plugin 用来打可执...

2018-08-19 10:45:00

阅读数 4290

评论数 0

原创 OpenTSDB介绍

参考:http://opentsdb.net/docs/build/html/index.htmlhttps://github.com/OpenTSDB/asynchbase   前言 OpenTSDB is a distributed, scalable Time Series Databa...

2018-08-18 10:01:32

阅读数 1281

评论数 0

原创 Hadoop Archives对小文件的处理

Hadoop Archives解析 1. 简介 我们知道大量的小文件会增加nameNode的压力,因为hadoop都是以block为单位存储数据,默认128M.再小的数据也会认为是一个块。Hadoop Archive是一个归档工具,Archive可以把多个文件归档成为一个文件。archive包...

2018-08-15 21:39:24

阅读数 319

评论数 0

原创 JGit 使用说明

JGit 使用说明 初步 jdk 1.8 第一次我们需要clone这个git,这个git就是我们的schema集。 Git git=Git.cloneRepository() .setURI("git号") ...

2018-08-14 20:02:52

阅读数 7096

评论数 3

原创 HBase 关于Versions以及TimeStamp操作

HBase 关于Versions以及TimeStamp操作总结。 说明 hbase在建表的时候,一个列族可以指定一个versions,用以表示所存数据的版本数,默认该值为3,即保存最近的3个版本的数据。在每一个cell中有同一数据的多个版本,按时间倒序排序。我们可以在建表的时候指定vers...

2018-08-14 19:55:52

阅读数 5789

评论数 0

原创 greenplum对hdfs文件的支持

greenplum对hdfs文件的支持 greenplum是一个优秀的分布式数据库。其外部表这一特性使其与HDFS有一个好的链接,它与下面将简单介绍一下其对HDFS文件格式的支持。 textFile。 创建外部表的时候指定format 为TEXT。同时需要指定每一行的分隔符用于分割。如下按...

2018-08-14 19:55:00

阅读数 1014

评论数 0

原创 Spark JobServer实例以及上传运行

Spark JobServer实例以及上传运行 (安装完jobServer) 首先编写scala代码简单实现: runJob定义一个job的具体实现逻辑。 validate在job执行之前做参数进行验证,验证通过后才会调用runjob方法,也可对输入数据进行一些预处理。比如在本例中我们...

2018-08-14 19:54:12

阅读数 440

评论数 0

提示
确定要删除当前文章?
取消 删除