自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 Kafka概念、组成、机制

1、概念Kafka是分布式的、可分区的,可复制的消息系统。2、原理【待补充】3、组成1)Topics/Logs一个topic是对一组消息的归纳。每个topic将被分成多个partition,每个partition在存储层面是append log文件。任何发布到此partition的消息都会被直接追加到log文件的尾部,每条消息在文件中的位置成为offset,offset为一个long型数字,它是一...

2018-02-12 20:47:05 329

原创 Spark SQL概念与组成概述

1、Spark SQL概念Spark SQL是Spark为结构化数据处理而引入的编程模块,提供了一个称为DataFrame的编程抽象,并且可以充当分布式SQL查询引擎。2、Spark SQL组成1)DataFrame是一个分布式数据集合,被组织成命名列,相当于具有良好优化技术的关系表。2)Core处理数据的输入输出,从不同的数据源获取数据(RDD、Parquet、Json等

2018-02-05 01:45:55 307

原创 Spark RDD Partition

1、概念 RDD内部并行计算的计算单元。尽可能规避Shuffle过程,降低网络开销。 RDD的数据集在逻辑上被划分为多个分片,每一个分片成为分区,分区的格式决定了并行计算的粒度。每个分区的数值计算都是在一个任务中进行的,因此任务的个数是由RDD(准确来说是作业最后一个RDD)的分区数决定的。2、原理 MapReduce里面的网络传输主要在Shuffle阶段,Shuffle的根本原因

2018-01-28 20:51:50 305

原创 Spark RDD入门详解

1、Spark RDD概念RDD即弹性分布式数据集,有容错机制并可以被并行操作的元素集合,具有只读、分区、容错、高效、无需物化、可以缓存、RDD依赖等特征。RDD只是数据集的抽象,分区内部并不会存储具体的数据。2、Spark RDD分类1)并行集合接收一个已经存在的Scala集合,然后进行各种并行计算。并行化集合是通过调用SparkContext的parallelize方法,在

2018-01-21 21:55:22 4682

原创 Spark入门详解

以下用一张思维导图全面并精炼地描述Spark基础知识,包括概念、原理、组成与机制。说明:1、此思维导图是在综合多篇关于Spark入门文章后获得,不敢保证多高质,但可保证最全面的同时又最精炼,最大程度减少记忆与理解负担。2、网页中看不清,下载图片即可。3、若发现有错误,请批评指正。4、因近期个人事务繁多,又是第一次写博文,图中一些地方的描述过于简洁,但实在没有时间在本篇文章中写明,若有看不懂的地方,请留言。

2018-01-14 18:41:51 329

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除