自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 spark2学习(3) 之Spark SQL

Spark SQL是用于结构化数据处理的Spark模块。与基本的Spark RDD API不同,Spark SQL提供的接口为Spark提供了有关数据结构和正在执行的计算的更多信息。在内部,Spark SQL使额外的优化。有几种与Spark SQL交互的方法,包括SQL和Dataset API。 ...

2018-08-12 22:27:14

阅读数 1638

评论数 0

原创 spark2学习(2) 之RDD编程

  RDD编程指南 实际上从spark2开始就不推荐使用rdd了,使用dataset操作更加简单高效,但是我们还是简单介绍一下内容吧 弹性分布式数据集(RDD) Spark围绕弹性分布式数据集(RDD)的概念展开,RDD是可以并行操作的容错的容错集合。创建RDD有两种方法:并行化 驱动程序...

2018-08-10 23:57:38

阅读数 162

评论数 0

原创 spark2学习(1) 之Spark Shell

在Spark 2.0之前,Spark的主要编程接口是弹性分布式数据集(RDD)。在Spark 2.0之后,RDD被数据集取代,数据集类似于RDD一样强类型,但在底层有更丰富的优化。这里强调以下,我们使用的ambari去安装集群的,所以不描述安装的问题。 使用Spark Shell进行交互式分析 ...

2018-08-10 22:16:07

阅读数 790

评论数 0

原创 谈谈phoenix salt buckets 的使用问题

首先说,这个是一不错的方案,但是乱用的问题特别的严重。在没有使用phoenix之前,对hbase的rowkey的设计是一门学问。难道有了phoenix我们就可以不在考虑这样rowkey的问题了吗,答案是千万不要这样干。只要当你的主键必须是单调递增的时候,而且我们使用这个主键去检索数据,那么这个sa...

2018-07-06 17:48:37

阅读数 1069

评论数 5

原创 phoenix的特性 OFFSET DUPLICATE

从4.6开始可以使用 OFFSET了样例:例如,如果页面大小为10,则要选择第二页,可以使用以下查询(行将从11返回到20):ELECT title, author, isbn, description FROM library WHERE published_date > 2010...

2018-07-06 17:32:51

阅读数 529

评论数 0

原创 phoenix学习四节 Secondary Indexing 二级索引

1.Secondary Indexing二级索引二级索引就是从主要访问路径的另一个hbase表的方式。1.覆盖索引机制 phoenix提供了一个强大的覆盖机制,就是一旦从索引中找到检索的条目就不去访问主表了。就是说它将关心的数据绑定到索引中,这样就可以节省读取时间,典型的用空间换时间的案例。 例如...

2018-07-06 16:51:43

阅读数 690

评论数 1

原创 phoenix学习第三节 User-defined functions(UDFs) 自定义函数

User-defined functions(UDFs)自定义函数U 概要用户可以创建临时/永久的函数。UDF可以与查询中的内置函数一样使用,例如select,upsert,delete,create functions index。临时函数在特定的回话和连接中生效,但是不能在其他的回话和连接中使...

2018-07-06 15:21:37

阅读数 955

评论数 0

原创 phoenix学习第二节 特性一 事务

Phoenix TRANSACTIONS 事务phoenix除了有hbase的行级事务外,通过和Tephra集成,添加了完整的ACID事务支持。在phoenix中启动事务需要两个步骤1.   修改配置文件并启动hbase 1.配置hbase-site.xml文件<property&a...

2018-07-06 11:24:33

阅读数 491

评论数 1

原创 phoenix学习第一节

总览phoenix是低延迟的基于hadoop的OLTP服务,支持标准的sql和全部的事务4要素,它是在nosql的hbase基础上添加元数据完成的,而且元数据保存在hbase的表中。sql的支持apche phoenix 将标准的sql编译成为hbase的scans,并且将结果数据转换成标准的jd...

2018-07-05 17:17:54

阅读数 303

评论数 0

原创 springboot配置文件优先级

官网地址:https://docs.spring.io/spring-boot/docs/current/reference/html/boot-features-external-config.htmlSpring Boot uses a very particular PropertySour...

2018-04-19 09:44:54

阅读数 168

评论数 0

转载 springConfigserver git 本地文件设置

1、config 默认Git加载通过spring.cloud.config.server.git.uri指定配置信息存储的git地址,比如:https://github.com/spring-cloud-samples/config-repo2、加载本地开发环境### config server ...

2018-04-17 15:17:47

阅读数 595

评论数 0

原创 Elasticsearch使用templates的restapi

定义模板:curl -XPUT localhost:9200/_template/xxxtemplate -d ' { "template" : "ehl*", "settings" : { ...

2018-02-28 14:23:05

阅读数 465

评论数 0

原创 说说maven快照配置问题

maven快照管理问题,怎么使用好快照呢? aliyun aliyun http://maven.aliyun.com/nexus/content/groups/public/ true never true always 红色部分一条要加上,要不然...

2017-12-20 11:29:55

阅读数 425

评论数 0

转载 spark on yarn的cpu使用

在yarn-site.xml中,可以配置virutal core的个数,请注意不是physical core的个数,相关配置如下:   yarn.nodemanager.resource.cpu-vcores   30   NodeManager总的可用虚拟CPU个数 ...

2017-12-13 11:08:39

阅读数 237

评论数 0

原创 spark on yarn 在HA nn1关闭的时候问题

当 nn1关闭的时候,spark提交任务不能执行报错如下: spark官方文档说明了这个问题的存在,应该很快就解决了,我们提交任务后,需要等待50*2秒,没有太大影响

2017-12-11 17:23:55

阅读数 228

评论数 0

原创 Spark on Yarn:任务提交参数配置

当在YARN上运行Spark作业,每个Spark executor作为一个YARN容器运行。Spark可以使得多个Tasks在同一个容器里面运行。 以下参数配置为例子 spark-submit --master yarn-cluster  / yarn-client    #使用集群调度...

2017-12-11 14:08:09

阅读数 1089

评论数 0

转载 ambari中删除journalnode节点

之前谈过如何在ambari中增加journalnode节点服务,这篇将说明如何删除journalnode服务 说明: hadooptest 为集群的名字,不是HA的名字 http://10.11.32.53:8080 为ambari管理界面 hadooptest.bj 为需要删除服务的主机...

2017-12-01 10:56:58

阅读数 217

评论数 0

转载 ambari增加journalnode服务节点

原生态方式: 以hadoop用户执行以下操作: 1.修改etc/hadoop/hdfs-site.xml,在dfs.namenode.shared.edits.dir 配置项中增加相应的新的journal的地址和端口. 2.把etc/hadoop/hdfs-site.xml分发到集群...

2017-12-01 10:56:09

阅读数 398

评论数 0

原创 如何判断ftp上传文件完毕

问题描述:ftp上传文件的时候总是先创建了文件,然后再上传。如果此时程序读取文件可能就读取一部分不完成的数据。那么怎么解决才合理呢 方案1.上传文件的客户端先创建一个临时文件名称,然后上传完毕再重命名。而重命名是修改注册表所以不会产生过程中数据不一致的问题 方案2.在ftp客户端上传文件不...

2017-11-16 16:58:16

阅读数 5515

评论数 1

原创 VSFTP 添加用户

在Linux 下添加VSFTP的用户 一、添加 Linux 用户.     添加用户:     useradd -s /sbin/nologin     设置密码:    passwd 二、添加用户到vsftp的配置文件中。     打开配置文件: vi /etc/vsftp...

2017-09-26 11:34:39

阅读数 849

评论数 0

原创 hadoop之fsimage和edits工作机制和元数据namenode宕机恢复

hadoop之fsimage和edits工作机制和元数据namenode宕机恢复

2016-09-29 14:30:12

阅读数 4482

评论数 0

原创 使用mapreduce读取hfile

使用mapreduce读取hfile 这里主要说是hbase提供的一个HFileScanner的使用。 以下代码使用HFileScanner写一个inputformat

2016-06-08 16:15:53

阅读数 1001

评论数 0

原创 hadoop的mapreduce配置理解一

最近搞了一个从hdfs中导出数据到本地磁盘上,结果数据块太多程序跑一会就因为某个块数据损坏而报错失败。 其实我希望的是能恢复多少恢复多少,忽略错误的块文件。 这里说两个配置项 1. mapred.map.max.attempts 默认4 map时报错重试几次,在这里我就设置1,,错就错了别耽误...

2016-06-08 16:03:11

阅读数 404

评论数 0

原创 kafka0.7x到kafka0.8x改变一

kafka0.7x到kafka0.8x改变一 0.8x版本开始新group读取数据时从最新的开始,之前版本反之。 kafka0.7x版本配置项autooffset.reset 默认smallest 从最老数据开始 kafka0.8x版本配置项auto.offset.reset 默认larg...

2016-06-08 15:49:08

阅读数 476

评论数 0

转载 分布式搜索elasticsearch------索引修复

分布式搜索elasticsearch------索引修复

2016-04-09 10:58:58

阅读数 338

评论数 0

原创 kafka0.72扩容和磁盘优化

kafka0.72扩容 增加机器 增加节点 使用多磁盘 磁盘io优化

2016-04-08 17:11:07

阅读数 2212

评论数 0

转载 成为Java GC专家(5)

转载地址:http://www.importnew.com/13954.html 这是“成为Java GC专家”系列的第五篇文章。在第一篇深入浅出Java垃圾回收机制中,我们已经学习了不同的GC算法流程、GC的工作原理、新生代(Young Generation)和老年代(Old Gene...

2016-03-17 15:14:43

阅读数 307

评论数 0

转载 成为Java GC专家(4)

转载地址:http://www.importnew.com/3151.html 这是“成为Java GC专家系列文章”的第四篇。 在第一篇文章 成为JavaGC专家Part I — 深入浅出Java垃圾回收机制 中我们学习了不同GC算法的执行过程,GC如何工作,新生代及老年代的基本...

2016-03-17 15:11:32

阅读数 325

评论数 0

转载 成为Java GC专家(3)

转载地址:http://www.importnew.com/3146.html 本文是成为Java GC专家系列文章的第三篇。在第一篇《成为JavaGC专家Part I — 深入浅出Java垃圾回收机制》中我们学习了不同GC算法的执行过程,GC是如何工作的,什么是新生代和老年代,你应该了...

2016-03-17 15:09:26

阅读数 365

评论数 0

转载 成为JavaGC专家(2)

转载地址:http://www.importnew.com/2057.html 本文是成为Java GC专家系列文章的第二篇。在第一篇《深入浅出Java垃圾回收机制》中我们学习了不同GC算法的执行过程,GC是如何工作的,什么是新生代和老年代,你应该了解的JDK7中的5种GC类型,以及这5...

2016-03-17 15:07:54

阅读数 310

评论数 0

转载 成为JavaGC专家(1)

转载地址:http://www.importnew.com/1993.html 对于Java开发人员来说,了解垃圾回收机制(GC)有哪些好处呢?首先可以满足作为一名软件工程师的求知欲,其次,深入了解GC如何工作可以帮你写出更好的Java应用。 这仅仅代表我个人的意见,但我坚...

2016-03-17 15:05:10

阅读数 272

评论数 0

转载 nginx 安装手记

Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ )  zlib-1.2.8.tar.gz2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ )  pcre-8.21.t...

2016-03-02 11:38:31

阅读数 1999

评论数 0

原创 elasticsearch2.2多表联查分析及其hdsf支持说明

一、多表联查问题 首先开门见山的说,elasticsearch对多表的联查是不支持的,暂时只能说支持“过车数据可以打标记” 1.分析案例一 网上有个案例地址为: http://www.wowtools.org/blog/articles/2015/09/08/1441692036407.h...

2016-03-01 12:52:28

阅读数 4600

评论数 0

原创 hadoop2.6数据导入elasticsearch2.2(解析hbase导出数据)

参考网址: https://www.elastic.co/guide/en/elasticsearch/hadoop/current/mapreduce.html 1.下载依赖jar elasticsearch-hadoop2.2.0.jar这个从私服下载吧。 2.数据流向是: hbase导...

2016-03-01 11:56:08

阅读数 2211

评论数 1

原创 elasticsearch2.2-yarn(hadoop)安装

序言:  首先说说es2.2在yarn上跑的好处和不足,在hadoop上跑可以统一使用yarn资源,不用单独给es搞物理机了。 这里要注意es并没有使用hdfs,网上资料说可以使用hdfs来管理es备份文件,本人费很大劲没有找到成功安装方式。  参考网址: https://github.c...

2016-03-01 11:30:21

阅读数 1908

评论数 0

原创 elasticsearch2.2的单机安装

elasticsearch2.2的单机安装 使用 启动

2016-03-01 09:41:03

阅读数 1474

评论数 2

转载 如何确定Kafka的分区数、key和consumer线程数

在Kafak中国社区的qq群中,这个问题被提及的比例是相当高的,这也是Kafka用户最常碰到的问题之一。本文结合Kafka源码试图对该问题相关的因素进行探讨。希望对大家有所帮助。   怎么确定分区数?     “我应该选择几个分区?”——如果你在Kafka中国社区的群里,这样的问...

2016-02-23 12:44:29

阅读数 567

评论数 0

转载 使用ToolRunner运行Hadoop程序基本原理分析

为了简化命令行方式运行作业,Hadoop自带了一些辅助类。GenericOptionsParser是一个类,用来解释常用的Hadoop命令行选项,并根据需要,为Configuration对象设置相应的取值。通常不直接使用GenericOptionsParser,更方便的方式是:实现Tool接口,通...

2016-02-19 14:10:53

阅读数 385

评论数 0

转载 HBase备份之导入导出

我们在上一篇文章《HBase复制》中讲述了如何建立主/从集群,实现数据的实时备份。但是,HBase复制只对设置好复制以后的数据生效,也即,配置好复制之后插入HBase主集群的数据才能同步复制到HBase从集群中,而对之前的历史数据,采用HBase复制这种办法是无能为力的。本文介绍如何使用HBase...

2016-02-17 11:28:06

阅读数 386

评论数 0

原创 hadoop断电数据丢失恢复之郴(chen)州

在牛逼的项目也扛不住,断电断网的折腾,果断数据丢失,恢复重启。  1. 项目中hadoop可以正常启动,但是hbase不能启动了,但是hbase的master可以单独启动的。 2.先看看 hadoop管理界面吧: 从这里看使用数据块的丢失,再“hadoop fsck /” ,没错31...

2016-01-21 16:56:46

阅读数 2219

评论数 0

提示
确定要删除当前文章?
取消 删除