![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 91
中琦2513
天道酬勤
展开
-
Spark 3.1.1 新特性
目录Spark-3.1.1 新特性Project Zen支持 Python 类型(Python typing support )支持依赖关系管理为 PyPI 用户提供新的安装选项PySpark 相关的文档完善ANSI SQL 兼容性性能提升Predicate pushdownShuffle 消除,子表达式消除和嵌套字段修剪Shuffle-Hash Join (SHJ) 支持所有的 join 类型Streaming 的改进其他 Spark 3.1 的改进原创 2021-03-04 13:32:19 · 2276 阅读 · 1 评论 -
Spark的任务提交和执行流程详解
直接上图:原创 2020-06-30 21:41:58 · 1615 阅读 · 0 评论 -
Spark-submit工具参数说明
spark-submit工具参数说明执行时需要传入的参数说明Usage: spark-submit [options] <app jar | python file> [app options] 参数名称 含义 --master MASTER_URL 可以是spark://host:port,...原创 2018-09-18 07:09:48 · 31087 阅读 · 0 评论 -
Spark的WordCount到底产生了多少个RDD
Spark的WordCount到底产生了多少个RDD不少的同学在面试中会被问到:这样的一句标准的sparkcore的wordcount的代码到底能要产生几个RDD呢。相信大家对于一个标准的WordCount的代码一定不陌生:sc.textFile("hdfs://myha01/wc/input/words.txt") .flatMap(_.split(" ")) .map((_,...原创 2018-09-05 08:43:23 · 36293 阅读 · 2 评论 -
SparkStreaming整合Kafka-0.8的官方文档要点翻译
Spark Streaming + Kafka Integration Guide (Kafka broker version 0.8.2.1 or higher)Note: Kafka 0.8 support is deprecated as of Spark 2.3.0. Here we explain how to configure Spark Streaming to rece...翻译 2018-08-02 12:01:22 · 38047 阅读 · 0 评论 -
Spark集群启动过程分析
原创 2018-07-31 20:19:01 · 36393 阅读 · 0 评论 -
Spark与Pandas中DataFrame对比(详细)
PandasSpark工作方式单机single machine tool,没有并行机制parallelism不支持Hadoop,处理大量数据有瓶颈分布式并行计算框架,内建并行机制parallelism,所有的数据和操作自动并行分布在各个集群结点上。以处理in-memory数据的方式处理distributed数据。支持Hadoop,能处理大量数据延迟机制not lazy-evaluatedlazy...原创 2018-06-10 09:54:40 · 40016 阅读 · 0 评论 -
数据分区详解
数据分区详解数据分区的五种常用方式:1、随机分区优点:数据分布均匀缺点:具有相同特点的数据不会保证被分配到相同的分区2、Hash分区优点:具有相同特点的数据保证被分配到相同的分区特点:会产生数据倾斜3、范围分区缺点:提高查询速度,相邻的数据都在相同的分区缺...原创 2019-06-27 14:37:22 · 9685 阅读 · 0 评论 -
Spark-2.x 中文文档
Spark 概述 编程指南 快速入门 Spark 编程指南 概述 Spark 依赖 Spark 的初始化 Shell 的使用 弹性分布式数据集(RDDS) 并行集合 外部数据集 RDD 操作 RDD 持久化 共享变量 Broadcast Variables (广播变量) Accumulators ...原创 2019-05-27 21:04:17 · 12792 阅读 · 1 评论 -
Spark面试精选题(06)
1、Operation category READ is not supported in state standby是什么原因导致的org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.StandbyException): Operation category READ is not supported in state st...原创 2019-04-11 10:22:34 · 17407 阅读 · 0 评论 -
Spark面试精选题(05)
1、简答说一下hadoop的map-reduce编程模型首先map task会从本地文件系统读取数据,转换成key-value形式的键值对集合使用的是hadoop内置的数据类型,比如longwritable、text等将键值对集合输入mapper进行业务处理过程,将其转换成需要的key-value在输出之后会进行一个partition分区操作,默认使用的是hashpartitioner,可以通...原创 2019-04-11 10:10:31 · 16166 阅读 · 0 评论 -
Spark面试精选题(04)
1、MRV1有哪些不足1) 可扩展性(对于变化的应付能力) a) JobTracker内存中保存用户作业的信息 b) JobTracker使用的是粗粒度的锁2) 可靠性和可用性 a) JobTracker失效会多事集群中所有的运行作业,用户需手动重新提交和恢复工作流3) 对不同编程模型的支持HadoopV1以MapReduce为中心的设计虽然能支持广泛的用例,但是...原创 2019-04-11 10:04:36 · 18071 阅读 · 0 评论 -
Spark面试精选题(03)
1、Spark master使用zookeeper进行HA的,有哪些元数据保存在Zookeeper?答:spark通过这个参数spark.deploy.zookeeper.dir指定master元数据在zookeeper中保存的位置,包括Worker,Driver和Application以及Executors。standby节点要从zk中,获得元数据信息,恢复集群运行状态,才能对外继续提供服务...原创 2019-04-11 09:49:59 · 17328 阅读 · 0 评论 -
Spark面试精选题(02)
1、driver的功能是什么?1)一个Spark作业运行时包括一个Driver进程,也是作业的主进程,具有main函数,并且有SparkContext的实例,是程序的人口点;2)功能:负责向集群申请资源,向master注册信息,负责了作业的调度,,负责作业的解析、生成Stage并调度Task到Executor上。包括DAGScheduler,TaskScheduler。2、spar...原创 2019-04-11 09:27:35 · 15752 阅读 · 0 评论 -
Spark面试精选题(01)
1、Spark中的RDD是什么,有哪些特性概念:RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。Dataset:就是一个集合,用于存放数据的Distributed:分布式,可以并行在集群计算Resilient:表示弹性的弹性表示1、RDD中的数据可以存储在...原创 2019-04-11 09:21:57 · 16240 阅读 · 1 评论 -
周志湖Spark系列
本人本着十分尊重的态度来学习周老师的博文,特此为方便好找,在此做一个目录。方便学习。Scala-IDE Eclipse(Windows)中开发Spark应用程序,在Ubuntu Spark集群上运行原创 2016-10-23 21:14:17 · 49353 阅读 · 1 评论 -
groupByKey与reduceByKey区别
If we compare the result of both ( “groupByKey” and “reduceByKey”) transformations, we have got the same results. I am sure you must be wondering what is the difference in both transformations. The “r原创 2017-10-19 07:43:44 · 46301 阅读 · 0 评论 -
Spark入门实战系列--10.分布式内存文件系统Tachyon介绍及安装部署
1 Tachyon介绍1.1 Tachyon简介随着实时计算的需求日益增多,分布式内存计算也持续升温,怎样将海量数据近乎实时地处理,或者说怎样把离线批处理的速度再提升到一个新的高度是当前研究的重点。近年来,内存的吞吐量成指数倍增长,而磁盘的吞吐量增长缓慢,那么将原有计算框架中文件落地磁盘替换为文件落地内存,也是提高效率的优化点。 目前已经使用基于内存计算的分布式计算框架有:Sp转载 2016-01-25 14:47:52 · 46008 阅读 · 0 评论 -
Spark入门实战系列--9.Spark图计算GraphX介绍及实例
【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送–Spark入门实战系列》获取1、GraphX介绍1.1 GraphX应用背景Spark GraphX是一个分布式图处理框架,它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求。 众所周知•,社交网络中人与人之间有很多关系链,例如Twitter、Facebook转载 2016-01-25 14:46:20 · 48513 阅读 · 0 评论 -
Spark入门实战系列--8.Spark MLlib(下)--机器学习库SparkMLlib实战
1、MLlib实例1.1 聚类实例1.1.1 算法说明聚类(Cluster analysis)有时也被翻译为簇类,其核心任务是:将一组目标object划分为若干个簇,每个簇之间的object尽可能相似,簇与簇之间的object尽可能相异。聚类算法是机器学习(或者说是数据挖掘更合适)中重要的一部分,除了最为简单的K-Means聚类算法外,比较常见的还有层次法(CURE、CHAMELEON转载 2016-01-25 14:41:00 · 48257 阅读 · 0 评论 -
Spark入门实战系列--8.Spark MLlib(上)--机器学习及SparkMLlib简介
1、机器学习概念1.1 机器学习的定义在维基百科上对机器学习提出以下几种定义:l“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。l“机器学习是对能通过经验自动改进的计算机算法的研究”。l“机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。” 一种经常引用的英文定义是:A computer program is转载 2016-01-25 14:38:18 · 46257 阅读 · 0 评论 -
Spark入门实战系列--7.Spark Streaming(下)--实时流计算Spark Streaming实战
1、实例演示1.1 流数据模拟器1.1.1 流数据说明在实例演示中模拟实际情况,需要源源不断地接入流数据,为了在演示过程中更接近真实环境将定义流数据模拟器。该模拟器主要功能:通过Socket方式监听指定的端口号,当外部程序通过该端口连接并请求数据时,模拟器将定时将指定的文件数据随机获取发送给外部程序。1.1.2 模拟器代码import java.io.{PrintWriter}转载 2016-01-25 14:36:44 · 45657 阅读 · 0 评论 -
Spark入门实战系列--7.Spark Streaming(上)--实时流计算Spark Streaming原理介绍
1、Spark Streaming简介1.1 概述Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets,从数据源获取数据之后,可以使用诸如map、reduce、join和window等高级函数进行复杂算转载 2016-01-25 14:35:00 · 46721 阅读 · 0 评论 -
Spark入门实战系列--6.SparkSQL(下)--Spark实战应用
1、运行环境说明1.1 硬软件环境l 主机操作系统:Windows 64位,双核4线程,主频2.2G,10G内存l 虚拟软件:VMware® Workstation 9.0.0 build-812388l 虚拟机操作系统:CentOS 64位,单核l 虚拟机运行环境:Ø JDK:1.7.0_55 64位Ø Hadoop:2.2.0(需要编译为64位)Ø转载 2016-01-25 14:33:30 · 46007 阅读 · 0 评论 -
Spark入门实战系列--6.SparkSQL(中)--深入了解SparkSQL运行计划及调优
1.1 运行环境说明1.1.1 硬软件环境l 主机操作系统:Windows 64位,双核4线程,主频2.2G,10G内存l 虚拟软件:VMware® Workstation 9.0.0 build-812388l 虚拟机操作系统:CentOS6.5 64位,单核l 虚拟机运行环境:Ø JDK:1.7.0_55 64位Ø Hadoop:2.2.0(需要编译为转载 2016-01-25 14:31:54 · 46128 阅读 · 0 评论 -
Spark入门实战系列--6.SparkSQL(上)--SparkSQL简介
1、SparkSQL的发展历程1.1 Hive and SharkSparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O,降低的运行效率,为了提高SQL-on-Hadoop的效率,转载 2016-01-25 14:28:59 · 45729 阅读 · 0 评论 -
Spark入门实战系列--1.Spark及其生态圈简介
1、简介1.1 Spark简介Spark是加州大学伯克利分校AMP实验室(Algorithms, Machines, and People Lab)开发通用内存并行计算框架。Spark在2013年6月进入Apache成为孵化项目,8个月后成为Apache顶级项目,速度之快足见过人之处,Spark以其先进的设计理念,迅速成为社区的热门项目,围绕着Spark推出了Spark SQL、S转载 2016-01-25 14:06:19 · 47557 阅读 · 0 评论 -
Spark入门实战系列--2.Spark编译与部署(上)--基础环境搭建
实验相关的测试数据和安装包放在百度盘提提供下载,地址为http://pan.baidu.com/s/1pJyyB6j。原创地址为:http://www.cnblogs.com/shishanyuan1、运行环境说明1.1 硬软件环境l 主机操作系统:Windows 64位,双核4线程,主频2.2G,10G内存l 虚拟软件:VMware转载 2016-01-25 14:12:32 · 45803 阅读 · 0 评论 -
Spark入门实战系列--2.Spark编译与部署(中)--Hadoop编译安装
实验相关的测试数据和安装包放在百度盘提提供下载,地址为http://pan.baidu.com/s/1pJyyB6j。原创地址为:http://www.cnblogs.com/shishanyuan1、编译Hadooop1.1 搭建环境1.1.1 安装并设置maven1. 下载maven安装包,建议安装3.0以上版本,本次安装选择的是maven3.0.5转载 2016-01-25 14:14:16 · 45282 阅读 · 0 评论 -
深入解析Spark中的RPC
Spark是一个快速的、通用的分布式计算系统,而分布式的特性就意味着,必然存在节点间的通信。本文主要介绍不同的Spark组件之间是如何通过RPC(Remote Procedure Call) 进行点对点通信的,分为三个章节:Spark RPC的简单示例和实际应用;Spark RPC模块的设计原理;Spark RPC核心技术总结。一、Spark RPC的简单示例和实际应用Sp转载 2017-08-31 13:38:18 · 48819 阅读 · 0 评论 -
Spark 生态系统组件
引言:随着大数据技术的发展,实时流计算、机器学习、图计算等领域成为较热的研究方向,而Spark作为大数据处理的“利器”有着较为成熟的生态圈,能够一站式解决类似场景的问题。那么Spark生态系统中有哪些组件你知道吗?下面让我们跟着本文一同了解下 这些不可或缺的组件。本文选自《图解Spark:核心技术与案例实战》。 Spark 生态系统以Spark Core 为核心,能够读取传统文件(如原创 2017-01-04 13:43:48 · 48707 阅读 · 0 评论 -
倾情大奉送--Spark入门实战系列
这一两年Spark技术很火,自己也凑热闹,反复的试验、研究,有痛苦万分也有欣喜若狂,抽空把这些整理成文章共享给大家。这个系列基本上围绕了Spark生态圈进行介绍,从Spark的简介、编译、部署,再到编程模型、运行架构,最后介绍其组件SparkSQL、Spark Streaming、Spark MLib和Spark GraphX等。文章内容的整理一般是先介绍原理,随后是实战例子,由于面向的是入门读者原创 2016-10-23 22:23:00 · 48735 阅读 · 2 评论 -
Spark入门实战系列--5.Hive(下)--Hive实战
1、Hive操作演示1.1 内部表1.1.1 创建表并加载数据第一步 启动HDFS、YARN和Hive,启动完毕后创建Hive数据库hive>create database hive;hive>show databases;hive>use hive;第二步 创建内部表由于Hive使用了类似SQL的语法,所以创建内部表的语句相对SQL只增加了行和字段分隔转载 2016-01-25 14:26:37 · 46231 阅读 · 0 评论 -
Spark入门实战系列--5.Hive(上)--Hive介绍及部署
1、Hive介绍1.1 Hive介绍Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL语句作为数据访问接口,Hive有如下优缺点:l 优点:1.Hive 使用类SQL 查询语法, 最大限度的实现了和SQL标准的兼容,大大降低了传统数据分析人员学习转载 2016-01-25 14:21:49 · 45269 阅读 · 0 评论 -
Spark入门实战系列--4.Spark运行架构
1、 Spark运行架构1.1 术语定义lApplication:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver 功能的代码和分布在集群中多个节点上运行的Executor代码;lDriver:Spark中的Driver即运行上述Application的main()函数并且创建Sp转载 2016-01-25 14:20:18 · 46047 阅读 · 0 评论 -
Spark入门实战系列--3.Spark编程模型(上)--编程模型及SparkShell实战
1、Spark编程模型1.1 术语定义l应用程序(Application): 基于Spark的用户程序,包含了一个Driver Program 和集群中多个的Executor;l驱动程序(Driver Program):运行Application的main()函数并且创建SparkContext,通常用SparkContext代表Driver Program;l执行转载 2016-01-25 14:17:26 · 45872 阅读 · 0 评论 -
Spark入门实战系列--2.Spark编译与部署(下)--Spark编译安装
1、编译SparkSpark可以通过SBT和Maven两种方式进行编译,再通过make-distribution.sh脚本生成部署包。SBT编译需要安装git工具,而Maven安装则需要maven工具,两种方式均需要在联网下进行,通过比较发现SBT编译速度较慢(原因有可能是1、时间不一样,SBT是白天编译,Maven是深夜进行的,获取依赖包速度不同 2、maven下载大文件是多线程进行,而转载 2016-01-25 14:15:55 · 45698 阅读 · 0 评论