赵英超的博客

相互学习,共同进步

大数据Spark入门教程

第一部分:快学Scala第一章 Scala简介第二章 Scala安装第三章 Scala基础第1节 声明值和变量第2节 基本数据类型和操作第3节 Range第4节 打印语句第5节 读写文件第四章 控制结构第1节 if条件表达式第2节 while循环第3节 for循环第五章 数据结构第1节 数组第2节...

2018-07-11 15:45:33

阅读数:23

评论数:0

Spark Streaming详解

Spark Streaming编程指南OverviewSpark Streaming属于Spark的核心api,它支持高吞吐量、支持容错的实时流数据处理。它可以接受来自Kafka, Flume, Twitter, ZeroMQ和TCP Socket的数据源,使用简单的api函数比如 map, re...

2018-06-05 15:17:27

阅读数:56

评论数:0

RDD、DataFrame和DataSet比较

RDD、DataFrame和DataSet是容易产生混淆的概念,必须对其相互之间对比,才可以知道其中异同。RDD优点:编译时类型安全 编译时就能检查出类型错误面向对象的编程风格 直接通过类名点的方式来操作数据缺点:序列化和反序列化的性能开销 无论是集群间的通信, 还是IO操作都需要对对象的结构和数...

2018-05-23 11:01:27

阅读数:42

评论数:0

Spark 内存管理详解

Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spa...

2018-05-07 17:19:59

阅读数:55

评论数:0

Spark On YARN 一些基本参数

本文主要了解Spark On YARN部署模式下的内存分配情况,因为没有深入研究Spark的源代码,所以只能根据日志去看相关的源代码,从而了解“为什么会这样,为什么会那样”。说明按照Spark应用程序中的driver分布方式不同,Spark on YARN有两种模式: yarn-client模式、...

2018-04-20 17:32:04

阅读数:69

评论数:0

Spark常见问题及性能调优

Spark的性能调优 下面这些关于Spark的性能调优项,有的是来自官方的,有的是来自别的的工程师,有的则是我自己总结的。 基本概念和原则 首先,要搞清楚Spark的几个基本概念和原则,否则系统的性能调优无从谈起: 每一台host上面可以并行N个wo...

2018-02-06 17:06:13

阅读数:135

评论数:0

spark常见问题处理

1、spark thriftserver报以下错误,其他诸如hive/sparksql等方式均正常 ERROR ActorSystemImpl: Uncaught fatal error from thread [sparkDriverActorSystem-akka.actor.defau...

2018-02-06 16:54:36

阅读数:1437

评论数:0

Spark Shuffle性能调优

Spark Shuffle的性能调优 1、Shuffle原理和运行机制回顾  2、Shuffle性能调优 上面的流程中:  性能问题1:Mapper端的Cache:如果Cache设置的大小不恰当,可能产生大量磁盘的访问操作,因为要频繁地往本地磁盘写数据。  性能问题2:R...

2017-11-14 19:47:02

阅读数:119

评论数:0

Spark性能调优

前言 继Spark性能调优基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 数据倾斜调优 调优概述 有的时候,我们可能会遇...

2017-11-14 19:31:49

阅读数:163

评论数:0

spark yarn 参数分析

按照Spark应用程序中的driver分布方式不同,Spark on YARN有两种模式: yarn-client模式、yarn-cluster模式。 当在YARN上运行Spark作业,每个Spark executor作为一个YARN容器运行。Spark可以使得多个Tasks在同一个容器里面...

2017-11-14 19:16:58

阅读数:222

评论数:0

Spark性能相关参数配置-大全

Spark性能相关参数配置¶ http://spark-config.readthedocs.io/en/latest/# 概述 随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 在Spark的官方文档http://spark.apache.org...

2017-11-14 16:01:01

阅读数:359

评论数:0

Spark程序的几个优化点

虽然spark已经提供了大量简单易用的API,但要想编写出高性能的spark应用,必须要对整体框架有一定的了解,对于Spark初学者来说是比较困难的。 针对这个这个问题,其实在spark1.6中,已经加入了dataset,官方已经对其进行了一系列的优化,用户可以将rdd转化为dataset操...

2017-11-07 15:19:23

阅读数:87

评论数:0

spark中遇到的数据倾斜问题

一. 数据倾斜的现象 多数task执行速度较快,少数task执行时间非常长,或者等待很长时间后提示你内存不足,执行失败。 二. 数据倾斜的原因 常见于各种shuffle操作,例如reduceByKey,groupByKey,join等操作。 数据问题 key本身分布不...

2017-11-07 15:17:43

阅读数:96

评论数:0

Spark数据本地性

一. 概述 Spark中的数据本地性分为两种 executor 层面的数据本地性task 层面的数据本地性 在两种本地性中,task层面的数据本地性是由Spark本身决定的,而executor的分发则是Cluter Manager控制的,因此下文主要描述在不同Cluster Ma...

2017-11-07 15:15:51

阅读数:197

评论数:0

spark 工作目录及数据本地化配置

执行spark-sql时,查询数据量超过1.7亿行,数据量大小38G,出现系统盘占用突然变高的情况 检查为 /tmp 目录下,spark生成的临时目录占用了大量的磁盘空间,生成的spark临时文件超过15G了。 解决方案为: 1、删除 /tmp/spark* 的文件 rm -rf  ...

2017-11-03 18:07:58

阅读数:750

评论数:0

spark常见错误及调优

一. 运维 1. Master挂掉,standby重启也失效 Master默认使用512M内存,当集群中运行的任务特别多时,就会挂掉,原因是master会读取每个task的event log日志去生成spark ui,内存不足自然会OOM,可以在master的运行日志中看到,通过HA启...

2017-11-03 18:00:55

阅读数:365

评论数:0

spark driver HA

实验环境:  zookeeper-3.4.6  Spark:1.6.0  简介:  本篇博客将从以下几点组织文章:  一:Spark 构建高可用HA架构  二:动手实战构建高可用HA  三:提交程序测试HA 一:Spark 构建高可用HA架构    Spark本身是Mast...

2017-10-24 10:16:29

阅读数:171

评论数:0

SparkStreaming Kafka基本概念

1.Storm 和 SparkStreaming区别 Storm                      纯实时的流式处理,来一条数据就立即进行处理 SparkStreaming 微批处理,每次处理的都是一批非常小的数据 ...

2017-10-24 09:47:38

阅读数:247

评论数:0

最全spark基础知识

《倾情大奉送--Spark入门实战系列》  1、 Spark运行架构 1.1 术语定义 lApplication:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver 功能的代码和分布在集群中多个节点上...

2017-10-23 20:13:45

阅读数:310

评论数:0

spark性能优化高级篇

Spark性能调优高级篇  分类: spark平台学习(2)  目录(?)[+] 前言 继Spark性能调优基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将...

2017-10-23 19:33:13

阅读数:149

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭