排序:
默认
按更新时间
按访问量

Hive元数据表结构详解

概述 我们知道Apache Hive 是构建在Apache Hadoop之上的数据仓库。有助于对大型的数据集进行读、写和管理。这也是官网介绍的第一句话,虽然简短但是却能提炼出很多东西,大家可以去细细品味下。该篇博客不做过多讲述。本文我们介绍Hive的原数据表,他默认是存储再derby中的,但是我...

2018-06-14 21:59:37

阅读数:271

评论数:0

spark 开发中log4j详解与配置步骤

1 环境 <properties> <scala.version>2.11.8</scala.version> <spar...

2018-06-12 21:37:42

阅读数:121

评论数:0

Spark Streaming + Kafka (Kafka broker version 0.8.2.1 or higher)

1 概述 上一篇博客我们学习了Spark Streaming + Kafka(0.10.0)版本的,这次我们通过两个版本的对比进行一个更深刻的认识。对于Kafka broker version 0.8.2.1可以支持高版本,而0.10.0版本以后并不支持以前的旧版本。 旧版本中有两种方法 - ...

2018-06-11 22:30:19

阅读数:24

评论数:0

Spark Streaming + Kafka(Kafka broker version 0.10.0)

1 概述 本文对于Kafka对接Spark Streaming进行学习。 官方地址,但是需要注意的是:Kafka项目在版本0.8和0.10之间引入了新的消费者API,因此有两个独立的相应Spark Streaming软件包可用。所以使用的时候要注意版本的问题。如下图所示版本选择: 作者使...

2018-06-11 21:16:38

阅读数:29

评论数:0

Flume+Spark Streaming

1 概述 Apache Flume是一种分布式,可靠且可用的服务,用于高效地收集,汇总和移动大量日志数据。 这里我们学习如何配置Flume和Spark Streaming来接收来自Flume的数据。 提供两种方法来解决这问题。 注意:从Spark 2.3.0开始,不推荐使用Flume支持。个人...

2018-06-10 13:21:18

阅读数:31

评论数:0

Spark Streaming中的Transformations和Output Operations的使用

概述 上一篇我们对Spark Streaming进行了简单的介绍,并使用socket的方式进行了测试,进一步对DStream,以及架构进行了学习,然后介绍了简单的源码分析。最后提到Spark Streaming提供了两类内置streaming sources。 1. 基本来源:Streamin...

2018-06-05 21:51:48

阅读数:29

评论数:0

Spark Streaming 介绍及架构——基础篇

1 概述 官方网站 Spark Streaming是Spark API核心的扩展,支持实时数据流的处理,并且具有可扩展,高吞吐量,容错的特点。 数据可以从许多来源获取,如Kafka,Flume,Kinesis或TCP套接字,并且可以使用复杂的算法进行处理,这些算法使用诸如map,reduce,...

2018-06-04 22:26:41

阅读数:57

评论数:0

Spark SQL 外部数据源(External DataSource)

1 概述 Spark1.2中,Spark SQL开始正式支持外部数据源。Spark SQL开放了一系列接入外部数据源的接口,来让开发者可以实现。使得Spark SQL可以加载任何地方的数据,例如mysql,hive,hdfs,hbase等,而且支持很多种格式如json, parquet, av...

2018-05-31 10:27:13

阅读数:79

评论数:0

fsimage与editlog详解

1 概述 HDFS中的NameNode被称为元数据节点DataNode称为数据节点。NameNode维护了文件与数据块的映射表以及数据块与数据节点的映射表,而真正的数据是存储在DataNode上。 对于NameNode如何存储这些信息,它维护两个文件,一个是fsimage,一个是editlog...

2018-05-30 10:53:13

阅读数:54

评论数:0

Spark中的RDD、DataFrame、Dataset对比

1 RDD RDD是Spark提供的最重要的抽象的概念,弹性的分布式数据集,它是一种有容错机制的特殊集合,可以分布在集群的节点上,以函数式编操作集合的方式,进行各种并行操作。Spark的RDD内置了各种函数操作,举个例子,我们编写wordcount案例,如果使用mapreduce进行编程,还是很...

2018-05-29 16:30:46

阅读数:34

评论数:0

Spark性能调优

1 概述 官网对于Spark的调优讲解 对于spark的性能调优我推荐大家去看看美团的文章,这里我会据一些例子让大家更好的去理解。 2 调优 这里我列举出美团文章中提出的一些调优,其实都在官网上。对一些难理解的通过代码和图片的方式进行解析。 1. 避免创建重复的RDD 2. 尽可能复用...

2018-05-25 22:06:09

阅读数:33

评论数:0

Spark 中的shuffle解读----初级篇

1 概述 官网描述 shuffle被称为”奇迹发生的地方”,在Spark中某些操作会触发shuffle,例如join, *By 或者 *ByKey等。我们应该都知道一句话:尽量去避免shuffle,为什么呢? 因为当作业运行的时候,shuffle是非常损耗性能的,shuffle是spark中...

2018-05-25 17:52:39

阅读数:30

评论数:0

Spark中的窄依赖和宽依赖

1 概述 今天我们来谈一谈Spark中的窄依赖和宽依赖。RDD大家应该有一定的理解了,弹性的分布式数据集,这里的弹性依赖于RDD之间的依赖关系,即使数据丢失也能重新计算。RDD之间的依赖关系又分为窄依赖和宽依赖,那到底什么是窄依赖什么是宽依赖呢?带着这个问题进入我们今天的学习。 2 窄依赖和宽...

2018-05-24 16:56:03

阅读数:80

评论数:0

Spark core中的cache,缓存级别详解

概述 本次我们将学习Spark core中的cache操作以及和 persist的区别。首先大家可能想到的是cache到底是什么呢?他有什么作用呢?我们可以带着这两个问题进行下面的学习。 本文结构: 1. cache的产生背景 2. cache的作用 3. 源码解析cache于persi...

2018-05-23 20:54:53

阅读数:53

评论数:0

Spark Core API实现一些简单的案例

1 读取Sequence File 读取文本格式我们可以使用text files,那么读取Sequence File该怎么办呢? 当然官网给我们提供了另外一种方式,sequenceFile[K, V] 方法,其中k和v是文件中的键值和值类型。他们实现了Writable接口。 - 准备数据 ...

2018-05-23 18:07:53

阅读数:38

评论数:0

Spark history-server详解

概述 这里作者和大家一起学习Spark 中的history-server,那他到底是什么呢?该如何去学习呢? 我们可以带着下面几个问题进行详细的学习于思考: 1. history-server产生背景 2. history-server的作用 3. 如何配置和使用 4. history...

2018-05-21 18:43:05

阅读数:35

评论数:0

Spark SQL基本操作——入门篇

1 概述 本文介绍spark sql的几种执行方式:SQL,DataFramesAPI与Datasets API(但会使用同一个执行引擎),Spark2.0中引入了SparkSession的概念。该篇文章只是做一个简单的了解,让大家有一个感官性的认识。下一篇会对RDD、DataFrame、Dat...

2018-05-04 10:55:00

阅读数:48

评论数:0

Spark SQL作用及其架构

1 概述 对于Spark SQL的学习:本文首先会介绍Spark SQL的产生背景,知道了产生背景我们开始学习Spark SQL的作用和特点,最后介绍其原理。下一篇文章会介绍如何使用Spark SQL。 官网地址 2 Spark SQL产生背景 2.1 SQL的重要性 很多传统的...

2018-05-03 22:58:59

阅读数:161

评论数:0

Flume常用场景

1 使用正则表达式即按照时间戳保存 Source:Spooling Directory Sink:hdfs Channel:memory 配置文件 a1.sources=r1 a1.sinks=k1 a1.channels=c1 a1.sources.r1.type=spoo...

2018-05-02 23:02:41

阅读数:30

评论数:0

Flume部署及其使用详解

1 官网地址 apache链接 cdh链接 2 产生背静 对于关系型数据库我们可以使用sqoop进行数据的处理,导入hive,hdfs,mysql等。那对于一些日志该怎么处理呢?(From outside To inside ),怎么样定时收集ng产生的日志到HDFS呢? 我们可能...

2018-05-02 16:54:56

阅读数:48

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭