2018年03月_zhuge134

转载潘国庆：基于 Spark Streaming 构建实时计算平台实战解析

http://gitbook.cn/books/59c1dde5987dbf24338e7df1/index.html

2018-03-27 14:51:36 202

原创提高spark sql翻页查询性能的想法

一般每一页的数据量比较小，1000条以内。大概的想法就是把要查询的数据先一次性查出来缓存在内存中，之后翻页查询的时候直接取结果就行了，这样只是第一次查的比较慢，后面从内存中直接取数据就非常快了。但是这又带来一个问题，如果结果集太大，比如有100w行数据，而且有很多列，这样就会占用大量内存，使执行内存变小，反而会降低查询性能，因此需要分段缓存结果集。具体的做法就是：每次缓存的数据量为：每页行数*10...

2018-03-26 22:55:51 712 3

转载 Phoenix综述（史上最全Phoenix中文文档）

1. Phoenix定义Phoenix最早是saleforce的一个开源项目，后来成为Apache基金的顶级项目。Phoenix是构建在HBase上的一个SQL层，能让我们用标准的JDBC APIs而不是HBase客户端APIs来创建表，插入数据和对HBase数据进行查询。put the SQL back in NoSQLPhoenix完全使用Java编写，作为HBase内嵌的JDBC驱动。Pho...

2018-03-26 22:18:31 1587

转载开发Kafka通用数据平台中间件

目录：一. Kafka概述二. Kafka启动命令三.我们为什么使用Kafka四. Kafka数据平台中间件设计及代码解析五.未来Kafka开发任务一. Kafka概述　　Kafka是Linkedin于2010年12月份创建的开源消息系统，它主要用于处理活跃的流式数据。活跃的流式数据在web网站应用中非常常见，这些活动数据包括页面访问量（Page View）、被查看内容方面的信息以及搜索情况等内...

2018-03-25 01:10:51 379

转载浅谈Phoenix在HBase中的应用

一、前言业务使用HBase已经有一段时间了，期间也反馈了很多问题，其中反馈最多的是HBase是否支持SQL查询和二级索引，由于HBase在这两块上目前暂不支持，导致业务在使用时无法更好的利用现有的经验来查询HBase。虽然HBase本身不支持SQL，但业界还是有现成的方案来支持，如Hive、Impala、Phoenix等。众多方案各有各的优势，本文主要对Phoenix作一个大概的介绍。Phoeni...

2018-03-25 01:09:10 2228 2

转载 awk进阶操作

7.1、awk命令形式 awk命令在shell脚本基本形式通常由四部分组成： [-F|-f|-v] (参数选项)、BEGIN语句块（初始化代码块）、pattern｛commadns｝（能够使用模式匹配的通用语句块）、END语句块(结束代码块)，这四部分是可选择的，任意一部分都可以不出现在脚本中，后面三部分通常是被单引号或双引号括起来，awk命令形式如下所示：awk [-F|-f|-...

2018-03-24 20:58:29 221

转载 Using the High Level Consumer

Using the High Level ConsumerWhy use the High Level ConsumerSometimes the logic to read messages from Kafka doesn't care about handling the message offsets, it just wants the data. So the High Level C...

2018-03-23 00:15:23 175

转载 kafka知识点整理

一、为什么需要消息系统123456789101112131415161.解耦：　　允许你独立的扩展或修改两边的处理过程，只要确保它们遵守同样的接口约束。2.冗余：　　消息队列把数据进行持久化直到它们已经被完全处理，通过这一方式规避了数据丢失风险。许多消息队列所采用的"插入-获取-删除"范式中，在把一个消息从队列中删除之前，需要你的处理系统明确的指出该消息已经被处理完毕，从而确保你的数据被安全的保存...

2018-03-23 00:11:24 207

转载流处理框架对比

分布式流处理是对无边界数据集进行连续不断的处理、聚合和分析的过程，与MapReduce一样是一种通用计算框架，期望延迟在毫秒或者秒级别。这类系统一般采用有向无环图(DAG)。DAG是任务链的图形化表示，用它来描述流处理作业的拓扑。在选择不同的流处理系统时，通常会关注以下几点：运行时和编程模型：平台框架提供的编程模型决定了许多特色功能，编程模型要足够处理各种应用场景。函数式原语：流处理平台应该能提供...

2018-03-22 23:59:59 1980

转载 kafka 高阶api使用示例

一、基本概念　　Kafka集成了Producer/Consumer连接Broker的客户端工具，但是在消息处理方面，这两者主要用于服务端（Broker）的简单操作，如：　　　　1.创建Topic　　　　2.罗列出已存在的Topic　　　　3.对已有Topic的Produce/Consume测试　　跟其他的消息系统一样，Kafka提供了多种不用语言实现的客户端API，如:Java，Python，Ru...

2018-03-22 23:19:57 1746

转载 kafka 协议层API示例

众所周知，Kafka自己实现了一套二进制协议(binary protocol)用于各种功能的实现，比如发送消息，获取消息，提交位移以及创建topic等。具体协议规范参见：Kafka协议这套协议的具体使用流程为：1.客户端创建对应协议的请求2.客户端发送请求给对应的broker3.broker处理请求，并发送response给客户端虽然Kafka提供的大量的脚本工具用于各种功能的实现，但很多时候...

2018-03-22 22:56:11 430

转载 Hive java api示例

基于hadoop的Hive数据仓库JavaAPI简单调用的实例，关于Hive的简介在此不赘述。hive提供了三种用户接口：CLI，JDBC/ODBC和 WebUICLI，即Shell命令行JDBC/ODBC 是 Hive 的Java，与使用传统数据库JDBC的方式类似WebGUI是通过浏览器访问 Hive本文主要介绍的就是第二种用户接口，直接进入正题。 1、Hive 安装： 1）hi...

2018-03-22 22:27:16 1250

原创利用flume增量采集关系数据库的配置

网上关于flume采集关系数据库如mysql的资料比较多，但是大部分都是复制粘贴，一错皆错，而且对于配置参数的介绍不太完整，或者未说明参数意义，由于最近在使用flume，所以在这里对配置参数简单总结一下。这里只介绍sql-source的配置agent.channels=ch1agent.channels.ch1.type=memoryagent.sources=sql-sourceagent.so...

2018-03-21 21:37:36 4130

原创 spark streaming应用提交到yarn上一直处于ACCEPTED状态，也未报错

原因已经找到，这里做个记录，防止下次再犯类似的错误。实际上是因为代码中将运行模式设置为本地模式，在提交到yarn上后driver端的代码正常运行，并且也正常运行了很多批次。但由于是本地模式，所以driver不会向resourcemanager申请资源，所以也就不会向rm注册自己，这也就解释了为什么在yarn记录的应用的日志中提示应用未向rm注册。...

2018-03-21 21:10:52 6786 1

转载在yarn fairScheduler中使用node-label特性

连接地址：http://doc.mapr.com/display/MapR/Label-based+Scheduling+for+YARN+Applications#Label-basedSchedulingforYARNApplications-CreatingQueueLabelsLabel-based Scheduling for YARN ApplicationsSkip to end o...

2018-03-13 23:45:58 1552 1

今日总结

1. shell中字符串的截取主要有两种，一种使用$符配合%，#，*实现截取；另一种也是$符，不过要和数字配合使用；此外使用cut也能实现截取str=abcde假设现在想截取c左边的字符，应该是ab，如下：echo ${str%c*} 截取c右边的字符：echo ${str#*c}这里有个记忆方法，键盘上#号在左边，%号在右边，如果想截取左边，就要去掉右边，就用%号，用%号代表要截取的字符，向...

2018-03-12 23:30:26 166

转载 HBase主要API总结及代码示例

一、几个主要 Hbase API 类和数据模型之间的对应关系：1、 HBaseAdmin关系： org.apache.hadoop.hbase.client.HBaseAdmin作用：提供了一个接口来管理 HBase 数据库的表信息。它提供的方法包括：创建表，删除表，列出表项，使表有效或无效，以及添加或删除表列族成员等。2、 HBaseConfiguration关系： org.apache.ha...

2018-03-12 00:02:09 6377

HDFS常用java api整理及使用示例

主要是一些文件系统的常用操作，包括增删文件及文件夹，读写操作，查看操作等。一：几个常用类介绍（1）：configuration类：此类封装了客户端或服务器的配置，通过配置文件来读取类路径实现（一般是core-site.xml）。（2）：FileSystem类：一个通用的文件系统api，用该对象的一些方法来对文件进行操作。FileSystem fs = FileSystem.get(conf)...

2018-03-09 23:44:53 1466

转载 spark thriftserver 的一些问题

更新记录初始发布：2017-09-19第一次更新：xxx简介Thrift JDBC/ODBC Server (简称 Spark Thrift Server 或者 STS)是Spark SQL的Apache Hive HiveServer2的端口，通过这个端口可以允许用户使用JDBC/ODBC端口协议来执行SQL查询。通过使用STS，商业用户就可以用使用一些炫目的BI工具，比如Tableau来连接S...

2018-03-05 23:54:33 4433

zhuge134的博客