MapReduce Shuffle 和 Spark Shuffle 原理概述

https://www.cnblogs.com/xiaodf/p/10650921.html Shuffle简介 Shuffle的本意是洗牌、混洗的意思,把一组有规则的数据尽量打乱成无规则的数据。而在MapReduce中,Shuffle更像是洗牌的逆过程,指的是将map端的无规则输出按指定的规...

2019-05-11 14:52:05

阅读数 22

评论数 0

大数据技术之_19_Spark学习_06_Spark 源码解析 + Spark 通信架构、脚本解析、standalone 模式启动、提交流程 + Spark Shuffle 过程 + Spark 内存

https://www.cnblogs.com/chenmingjun/p/10803261.html 文章目录 第1章 Spark 整体概述 1.1 整体概念 1.2 RDD 抽象 1.3 计算抽象 1.4 集群模式 1.5 RPC 网络通信抽象 1.6 启动 Sta...

2019-05-04 22:50:35

阅读数 1628

评论数 0

轻松理解 Spark 的 aggregate 方法

https://www.cnblogs.com/chorm590/p/spark_201904201159.html 2019-04-20 关键字:Spark 的 agrregate作用、Scala的 aggregate是什么 Spark编程中的 aggregate方法还是比较常用的。本篇...

2019-04-21 12:14:12

阅读数 46

评论数 0

Spark读写HBase实践

Spark读写HBase实践 https://www.jianshu.com/p/49141df754a2 Spark经常会读写一些外部数据源,常见的有HDFS、HBase、JDBC、Redis、Kafka等。这些都是Spark的常见操作,做一个简单的Demo总结,方便后续开发查阅。 1.1...

2019-04-10 02:04:36

阅读数 43

评论数 0

SPARK2.1.0模型设计与基本架构(下)

SPARK2.1.0模型设计与基本架构(下) https://www.cnblogs.com/jiaan-geng/p/9708246.html 阅读提示:读者如果对Spark的背景知识不是很了解的话,建议首先阅读《SPARK2.1.0模型设计与基本架构(上)》一文。 SPARK模型设计 ...

2018-10-01 17:12:28

阅读数 134

评论数 0

SparkSql学习笔记(包含IDEA编写的本地代码)

SparkSql学习笔记(包含IDEA编写的本地代码)   Spark SQL and DataFrame 1.为什么要用Spark Sql 原来我们使用Hive,是将Hive Sql 转换成Map Reduce 然后提交到集群上去执行,大大简化了编写MapReduce的程序的复杂性,由于M...

2018-08-22 22:55:41

阅读数 187

评论数 0

Spark Streaming + Kafka集成指南

https://www.cnblogs.com/frankdeng/p/9308585.htmlKafka项目在版本0.8和0.10之间引入了一个新的消费者API,因此有两个独立的相应Spark Streaming包可用。请选择正确的包, 请注意,0.8集成与后来的0.9和0.10代理兼容,但0....

2018-07-16 00:39:11

阅读数 157

评论数 0

Spark(三)Spark之RDD

https://www.cnblogs.com/frankdeng/p/9301653.html一、RDD的概述1.1 什么是RDD?RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行...

2018-07-14 00:38:19

阅读数 137

评论数 0

Spark MLlib 之 aggregate和treeAggregate从原理到应用

https://www.cnblogs.com/xing901022/p/9285898.html在阅读spark mllib源码的时候,发现一个出镜率很高的函数——aggregate和treeAggregate,比如matrix.columnSimilarities()中。为了好好理解这两个方法...

2018-07-09 21:45:29

阅读数 307

评论数 0

Spark Streaming编程指南

https://www.cnblogs.com/swordfall/p/8378000.htmlA Quick ExampleBasic ConceptsLinkingInitializing StreamingContextDiscretized Streams (DStreams)Input ...

2018-02-09 16:19:44

阅读数 147

评论数 0

大数据学习系列之九---- Hive整合Spark和HBase以及相关测试

https://www.cnblogs.com/xuwujing/p/8322022.html 前言 在之前的大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建 中介绍了集群的环境搭建,但是在使用hive进行数据查询的...

2018-01-22 00:00:48

阅读数 778

评论数 0

《Spark Python API 官方文档中文版》 之 pyspark.sql (一)

http://www.cnblogs.com/wonglu/p/7784556.html 摘要:在Spark开发中,由于需要用Python实现,发现API与Scala的略有不同,而Python API的中文资料相对很少。每次去查英文版API的说明相对比较慢,还是中文版比较容易get到所需...

2017-11-04 21:07:02

阅读数 3796

评论数 1

Spark Streaming笔记——技术点汇总

http://www.cnblogs.com/netoxi/p/7223414.html 目录 · 概况 · 原理 · API     · DStream     · WordCount示例     · Input DStream     · Transformatio...

2017-08-04 17:54:56

阅读数 267

评论数 0

Spark笔记——技术点汇总

http://www.cnblogs.com/netoxi/p/7223412.html 目录 · 概况 · 手工搭建集群     · 引言     · 安装Scala     · 配置文件     · 启动与测试 · 应用部署     · 部署架构     · 应...

2017-08-02 11:58:08

阅读数 823

评论数 0

一张图读通Spark源码

http://blog.csdn.net/pelick/article/details/17222873 前段时间断断续续通读了下Spark-0.8的源码,边读边画的一张大体的流程图 ,覆盖了最重要的几个模块及其关键类。希望对源码的细化阅读有所帮助。 (图片比较宽,CSDN显示...

2017-07-31 23:49:58

阅读数 203

评论数 0

Spark SQL 物理执行计划各操作实现

http://blog.csdn.net/pelick/article/details/22748841 SparkStrategy: logical to physical Catalyst作为一个实现无关的查询优化框架,在优化后的逻辑执行计划到真正的物理执行计划这部分只提供了接口,没有...

2017-07-31 23:48:23

阅读数 1445

评论数 0

整理对Spark SQL的理解

http://blog.csdn.net/pelick/article/details/22723699 Catalyst是与Spark解耦的一个独立库,是一个impl-free的执行计划的生成和优化框架。 目前与Spark Core还是耦合的,对此user邮件组里有人...

2017-07-31 23:44:29

阅读数 323

评论数 0

Catalyst 优化逻辑执行计划规则

http://blog.csdn.net/pelick/article/details/22723699 Optimizer 本文分析Catalyst Optimize部分实现的对逻辑执行计划(LogicalPlan)的处理规则。 Optimizer处理的...

2017-07-31 23:35:54

阅读数 256

评论数 0

Spark SQL笔记——技术点汇总

http://www.cnblogs.com/netoxi/p/7223413.html 目录 · 概述 · 原理     · 组成     · 执行流程     · 性能 · API     · 应用程序模板     · 通用读写方法     · RDD转为Dat...

2017-07-31 23:17:46

阅读数 379

评论数 0

Apache Spark源码走读之11 -- sql的解析与执行

http://www.cnblogs.com/hseagle/p/3752917.html 欢迎转载,转载请注明出处,徽沪一郎。 概要 在即将发布的spark 1.0中有一个新增的功能,即对sql的支持,也就是说可以用sql来对数据进行查询,这对于DBA来说无疑是一大...

2017-07-24 16:27:30

阅读数 409

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭