zh_huang-CSDN博客

原创因个人服务器受到攻击，博客搬至CSDN，原博客不再使用

因服务器受到攻击，博客搬至了CSDN，原博客不再使用。

2018-04-01 10:36:54 169

一.简介1.hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。2.Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的...

2018-04-01 11:06:35 289

原创 Hive安装（metadata存储在mysql中）

下载链接：http://apache.fayea.com/hive/1.解压2.配置hive（1）将mysql驱动上传至 apache-hive-2.1.1-bin/lib（2）在/apache-hive-2.1.1-bin/conf 创建 hive-site.xml<?xml version="1.0"?><?xml-stylesheet type="text/xsl" hr...

2018-04-01 11:00:56 518

原创 spark远程调试异常解决

问题： java.lang.IllegalArgumentException: System memory 259522560 must be at least 471859200. Please increase heap size using the --driver-memory option or spark.driver.memory in Spark configuration.解决：...

2018-04-01 10:54:57 2459

翻译 Hadoop调度器及其工作方法

Hadoop调度器作用是将系统中空闲的资源按一定策略分配作业。在hadoop中，调度器是一个可插拔的模块，用户可以根据自己的实际应用要求设计调度器。①先进先出调度器（FIFO Scheduler）Hadoop中默认的调度器，它先按照作业的优先级高低，再按照到达时间的先后选择被执行的作用。 ②计算能力调度器（Capacity Scheduler）计算能力调度器，选择占用最小，优先级高的先执行，以...

2018-04-01 10:53:11 1442

原创 windows下编译hive

小编使用的环境windows10apache-maven，版本：3.5.0jdk8cygwin，版本：1.7.35-1cygwin说明1.因为编译hive时会调用shell，windows本身不支持运行shell，引入cygwin可以模拟类UNIX环境。2.从官方渠道安装cygwin时需要保持一个好网速，否则可能会多次安装失败，安装完后会有几个G，安装时间可能会有大半天。3.非官方渠道上下cygw...

2018-04-01 10:41:18 2076

原创 SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".

添加maven依赖<dependency> <groupId>org.slf4j</groupId> <artifactId>slf4j-api</artifactId> <version>1.7.21</version></dependency><depende

2018-04-01 10:34:11 816

原创 Kafka拓扑结构

上图中kafka相关术语Producer ：消息生产者，负责发布消息到kafka broker。Broker ：代理，kafka集群包含的服务端（每个服务端称之为代理），负责处理消息读写请求及存储消息。Consumer ：消息消费者，向kafka broker读取消息的客户端。Topic ：消息分类。Partition ：partition 是物理上的概念，每个 topic 包含一个或多个 pa...

2018-04-01 10:27:00 2238

翻译 Kafka的四个核心API

· 使用 Producer API 发布消息到kafka集群中一个或多个topic。· 使用 Consumer API 来订阅一个或多个topic，并处理产生的消息。· 使用 Streams API 充当一个流处理器，从1个或多个topic消费输入流，并生产输出流到1个或多个输出topic，有效地将输入流转换到输出流。· 使用Connector API可以构建和运行可重复使用的生产者或消费者，将t...

2018-04-01 10:26:49 2648

翻译 Topic 和 Log

对每个Topic，kafka集群维护如下图所示的partiton的log 一个topic可以分成多个partition，每个partition都是有序的，可以持续追加记录的不可变的序列，其中每个记录都被分配一个序列号，称为偏移量(offset)，在每个partition中此偏移量都是唯一的。发布到Kafka集群的消息,无论是否被消费,都会保留一段时间，保留的时间是可配置的...

2018-04-01 10:26:37 593