![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
xiaomin_____
努力~~
展开
-
java spark WordCount
spark,又一个传说中的分布式实现,详情:http://spark-project.org/,安装这里就不写了,因为网上已有中文介绍,这里主要是介绍一下入门,和hadoop一样,学习的时候,首先学习spark提供的字符统计例子:javaWordCount <dependency> <groupId>org.apache.spark</groupI...原创 2015-01-06 11:25:52 · 152 阅读 · 0 评论 -
与 Hadoop 对比,如何看待 Spark 技术?
我本人是类似Hive平台的系统工程师,我对MapReduce的熟悉程度是一般,它是我的底层框架。我隔壁组在实验Spark,想将一部分计算迁移到Spark上。年初的时候,看Spark的评价,几乎一致表示,Spark是小数据集上处理复杂迭代的交互系统,并不擅长大数据集,也没有稳定性。但是最近的风评已经变化,尤其是14年10月他们完成了Peta sort的实验,这标志着Spark越来越接近替代Ha...原创 2015-10-08 11:58:32 · 73 阅读 · 0 评论 -
Spark基础知识学习分享
一、Spark基础知识梳理1.Spark是什么?Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发。Spark基于map reduce 算法模式实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于Hadoop MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,节省了磁盘IO耗时,号称性能比Hadoop快10...原创 2015-10-08 12:01:25 · 62 阅读 · 0 评论 -
Storm与Spark Streaming比较
Storm风暴和Spark Streaming火花流都是分布式流处理的开源框架。这里将它们进行比较并指出它们的重要的区别。处理模型,延迟虽然这两个框架都提供可扩展性和容错性,它们根本的区别在于他们的处理模型。而Storm处理的是每次传入的一个事件,而Spark Streaming是处理某个时间段窗口内的事件流。因此,Storm处理一个事件可以达到秒内的延迟,而Spark Streaming则...原创 2015-10-08 13:56:33 · 65 阅读 · 0 评论 -
Spark Streaming实时计算框架介绍
随着大数据的发展,人们对大数据的处理要求也越来越高,原有的批处理框架MapReduce适合离线计算,却无法满足实时性要求较高的业务,如实时推荐、用户行为分析等。 Spark Streaming是建立在Spark上的实时计算框架,通过它提供的丰富的API、基于内存的高速执行引擎,用户可以结合流式、批处理和交互试查询应用。本文将详细介绍Spark Streaming实时计算框架的原理与特点、适用场景...原创 2015-10-11 20:17:19 · 126 阅读 · 0 评论 -
实时流计算Spark Streaming原理介绍
1、Spark Streaming简介1.1 概述Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets,从数据源获取数据之后,可以使用诸如map、reduce、join和window等高级函数进行...原创 2015-10-11 20:20:54 · 86 阅读 · 0 评论 -
实时流计算Spark Streaming原理介绍
1、Spark Streaming简介1.1 概述Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets,从数据源获取数据之后,可以使用诸如map、reduce、join和window等高级函数进行...原创 2015-10-11 20:21:17 · 76 阅读 · 0 评论 -
Spark Streaming:大规模流式数据处理
转自:http://www.csdn.net/article/2014-01-27/2818282-Spark-Streaming-big-data 摘要:Spark Streaming是大规模流式数据处理的新贵,将流式计算分解成一系列短小的批处理作业。本文阐释了Spark Streaming的架构及编程模型,并结合实践对其核心技术进行了深入的剖析,给出了具体的应用场景及优化方案。...原创 2015-10-11 20:34:56 · 83 阅读 · 0 评论 -
SparkStream demo
炼数成金 课程1、监控本地文件夹下的文件信息import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spark.streaming.StreamingContext._object HdfsWordC...原创 2015-10-11 21:16:17 · 103 阅读 · 0 评论 -
Spark Streaming的窗口操作
Spark Streaming的Window Operation可以理解为定时的进行一定时间段内的数据的处理。不要怪我语文不太好。。下面上原理图吧,一图胜千言:滑动窗口在监控和统计应用的场景比较广泛,比如每隔一段时间(2s)统计最近3s的请求量或者异常次数,根据请求或者异常次数采取相应措施如图:1. 红色的矩形就是一个窗口,窗口hold的是一段时间内的数据流。2.这里面...原创 2015-10-12 10:01:17 · 181 阅读 · 0 评论 -
在Windows上build Spark
在本机(Windows 8)上安装spark玩一玩,Spark的Quick Start上没有指明具体步骤,自己Build好了之后把步骤记录一下。首先,到Spark的官网上下载Spark的压缩包,然后解压缩到本地文件夹。我下的是Spark 1.1.0,目前最新的release,链接spark-1.1.0.tgz。按照文档上运行bin/spark-shell,会提示找不到所需的...原创 2015-10-14 16:43:14 · 100 阅读 · 0 评论 -
spark1.4 Windows local调试环境搭建总结
spark1.4 Windows local调试环境搭建总结1.scala版本scala-2.10.4 官方推荐scala-2.11.7【不推荐,非sbt项目、需要后加载】2.spark版本spark-1.4.0-bin-hadoop2.6.tgz3.hadoop3.1版本hadoop-2.6.0.tar.gz3.2环境变量HADOOP_HOME=E:/ysg.tools/spark...原创 2015-10-14 17:30:13 · 68 阅读 · 0 评论 -
Win7下安装Spark
1、下载spark解压到D盘,现在的版本是1.2.12、下载scala安装到d:\ProgramFiles(x86)\scala\安装好scala后需要配置环境变量修改path这个变量,把Scala的bin目录也放进去D:\ProgramFiles(x86)\scala\bin(现在版本的scala会自动修改系统的环境变量,提示的时候选择不阻止)测试是否配置成功,在命令行中输入...原创 2015-10-15 00:32:13 · 181 阅读 · 0 评论 -
Spark Shell由于Scala编译器原因不能正常启动
最近开始学习spark,在windows上按照官方说明运行命令spark-shell进入到scala版本的spark shell时,出现了下面的问题:Failed to initialize compiler: object scala.runtime in compiler mirror not found.** Note that as of 2.8 scala does no...原创 2015-10-15 15:51:00 · 419 阅读 · 0 评论 -
spark-submit常见问题及其解决
概要编写了独立运行的Spark Application之后,需要将其提交到Spark Cluster中运行,一般会采用spark-submit来进行应用的提交,在使用spark-submit的过程中,有哪些事情需要注意的呢?本文试就此做一个小小的总结。spark-defaults.confSpark-defaults.conf的作用范围要搞清楚,编辑driver所在机器上的sp...原创 2015-10-16 00:56:02 · 272 阅读 · 0 评论 -
Spark 配置指南
Spark可以在三个地方配置系统:Spark属性控制大部分的应用参数。 这些属性可以通过SparkConf对象, 或者Java系统属性.环境变量可以为每台机器配置,比如IP地址, 通过每个节点上的conf/spark-env.sh脚本.可同通过log4j.properties配置日志.Spark属性Spark属性控制应用的大部分设置, 可以为不同的应用分别设置. 这些属...原创 2015-10-16 00:56:27 · 176 阅读 · 0 评论 -
Spark 伪分布式 & 全分布式 安装指南
0、前言3月31日是 Spark 五周年纪念日,从第一个公开发布的版本开始,Spark走过了不平凡的5年:从刚开始的默默无闻,到13年的鹊起,14年的大爆发。Spark核心之上有分布式的机器学习,SQL,streaming和图计算库。4月1日 spark 官方正式宣布 Spark 2.0 对Spark重构,更好支持手机等移动终端。Databricks创始人之一hashjoin透漏了相关...原创 2015-10-16 00:56:57 · 131 阅读 · 0 评论 -
Spark 独立部署模式
除了在 Mesos 或 YARN 集群上运行之外, Spark 还提供一个简单的独立部署的模块。你通过手动开始master和workers 来启动一个独立的集群。你也可以利用我们提供的脚本 .它也可以运行这些进程在单个机器上进行测试。安装 Spark 独立集群部署Spark最简单的方法就是运行./make-distribution.sh 脚本来创建一个2进制发行版.这个...原创 2015-10-16 00:57:36 · 159 阅读 · 0 评论 -
Spark脚步文件作用说明
sbin目录下的脚本文件slaves.sh 在所有定义在${SPARK_CONF_DIR}/slaves的机器上执行一个shell命令spark-config.sh 被其他所有的spark脚本所包含,里面有一些spark的目录结构信息spark-daemon.sh 将一条spark命令变成一个守护进程spark-da...原创 2015-10-16 00:57:56 · 175 阅读 · 0 评论 -
Spark架构与作业执行流程简介
Local模式运行Spark最简单的方法是通过Local模式(即伪分布式模式)。 运行命令为:./bin/run-example org.apache.spark.examples.SparkPi local基于standalone的Spark架构与作业执行流程Standalone模式下,集群启动时包括Master与Worker,其中Master负责接收客户端提交的作业,管...原创 2015-10-20 14:38:04 · 109 阅读 · 0 评论 -
Spark1.0.0 运行架构基本概念
Spark Application的运行架构由两部分组成:driver program(SparkContext)和executor。Spark Application一般都是在集群中运行,比如Spark Standalone、YARN、mesos,这些集群给Spark Applicaiton提供了计算资源和这些资源管理,这些资源既可以给executor运行,也可以给driver program...原创 2015-10-20 14:58:13 · 77 阅读 · 0 评论 -
Spark Master High Availability(HA)高可用配置的2种实现
Spark Standalone集群是Master-Slaves架构的集群模式,和大部分的Master-Slaves结构集群一样,存在着Master单点故障的问题。如何解决这个单点故障的问题,Spark提供了两种方案:基于文件系统的单点恢复(Single-Node Recovery with Local File System)基于zookeeper的Standby Masters(S...原创 2015-10-20 15:29:44 · 208 阅读 · 0 评论 -
spark 作业调度
spark的任务调度系统如下所示: 从上图中可以看出来由RDD Objects产生DAG,然后进入了DAGScheduler阶段,DAGScheduler是面向state的高层次的调度器,DAGScheduler把DAG拆分成很多的tasks,每组的tasks都是一个state,每当遇到shuffle就会产生新的state,可以看出上图一共有三个state;DAGScheduler需...原创 2015-10-20 16:25:15 · 113 阅读 · 0 评论 -
Spark Core Runtime分析: DAGScheduler, TaskScheduler, SchedulerBackend
Spark Runtime里的主要层次分析,梳理Runtime组件和执行流程,DAGSchedulerJob=多个stage,Stage=多个同种task, Task分为ShuffleMapTask和ResultTask,Dependency分为ShuffleDependency和NarrowDependency面向stage的切分,切分依据为宽依赖维护waiting job...原创 2015-10-21 00:13:37 · 57 阅读 · 0 评论 -
Spark的TaskScheduler和DagScheduler
开始研究神奇的spark。会陆续将研究的心得放上来。 在Spark中一个核心的是模块就是调度器(Scheduler),在spark中Scheduler有两种TaskScheduler(是低级的调度器接口),DagScheduler(是高级的调度) 我们在创建SparkContext对象的时候,sparkcontext内部就会创建TaskScheduler和DagScheduler,奇迹从此就发生...原创 2015-10-21 00:14:43 · 78 阅读 · 0 评论 -
Spark 属性配置
1:Spark1.0.0属性配置方式 Spark属性提供了大部分应用程序的控制项,并且可以单独为每个应用程序进行配置。 在Spark1.0.0提供了3种方式的属性配置:SparkConf方式SparkConf方式可以直接将属性值传递到SparkContext;SparkConf可以对某些通用属性直接配置,如master使用setMaster,appn...原创 2015-10-21 00:15:22 · 82 阅读 · 0 评论 -
Spark官方文档: Spark Configuration(Spark配置)
Spark主要提供三种位置配置系统:环境变量:用来启动Spark workers,可以设置在你的驱动程序或者conf/spark-env.sh 脚本中;java系统性能:可以控制内部的配置参数,两种设置方法:编程的方式(程序中在创建SparkContext之前,使用System.setProperty(“xx”,“xxx”)语句设置相应系统属性值);在conf/spark-...原创 2015-10-23 00:12:46 · 141 阅读 · 0 评论 -
Spark分布式计算和RDD模型研究
1背景介绍现今分布式计算框架像MapReduce和Dryad都提供了高层次的原语,使用户不用操心任务分发和错误容忍,非常容易地编写出并行计算程序。然而这些框架都缺乏对分布式内存的抽象和支持,使其在某些应用场景下不够高效和强大。RDD(Resilient Distributed Datasets弹性分布式数据集)模型的产生动机主要来源于两种主流的应用场景:Ø 迭代式算法:迭代式机器...原创 2015-10-23 00:13:32 · 115 阅读 · 0 评论 -
spark 常用脚本
# Run on a Spark standalone cluster./bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master spark://207.184.161.138:7077 \ --executor-memory 20G \ --total-executor-cor...原创 2015-10-23 00:15:07 · 103 阅读 · 0 评论 -
Spark DataFrame小试牛刀
三月中旬,Spark发布了最新的1.3.0版本,其中最重要的变化,便是DataFrame这个API的推出。DataFrame让Spark具备了处理大规模结构化数据的能力,在比原有的RDD转化方式易用的前提下,计算性能更还快了两倍。这一个小小的API,隐含着Spark希望大一统「大数据江湖」的野心和决心。DataFrame像是一条联结所有主流数据源并自动转化为可并行处理格式的水渠,通过它Spark...原创 2016-09-08 11:59:39 · 82 阅读 · 0 评论 -
Apache Spark探秘:Spark Shuffle实现
对于大数据计算框架而言,Shuffle阶段的设计优劣是决定性能好坏的关键因素之一。本文将介绍目前Spark的shuffle实现,并将之与MapReduce进行简单对比。本文的介绍顺序是:shuffle基本概念,MapReduce Shuffle发展史以及Spark Shuffle发展史。 (1) shuffle基本概念与常见实现方式shuffle,是一个算子,表达的是多对多的依赖...原创 2015-10-24 00:08:45 · 118 阅读 · 0 评论 -
spark中RDD的transformation&action
简介:1,transformation是得到一个新的RDD,方式很多,比如从数据源生成一个新的RDD,从RDD生成一个新的RDD2,action是得到一个值,或者一个结果(直接将RDDcache到内存中)所有的transformation都是采用的懒策略,就是如果只是将transformation提交是不会执行计算的,计算只有在action被提交的时候才被触发。 tran...原创 2015-10-24 00:09:09 · 89 阅读 · 0 评论 -
Spark三种属性配置方式详细说明
随着Spark项目的逐渐成熟, 越来越多的可配置参数被添加到Spark中来。在Spark中提供了三个地方用于配置: 1、Spark properties:这个可以控制应用程序的绝大部分属性。并且可以通过 SparkConf对象或者Java 系统属性进行设置; 2、环境变量(Environment variables):这个可以分别对每台机器进行相应的设置,比如IP。这个可以在每台机器的$S...原创 2015-10-24 00:09:42 · 382 阅读 · 0 评论 -
spark shell的学习
Spark的交互式脚本是一种学习API的简单途径,也是分析数据集交互的有力工具。Spark抽象的分布式集群空间叫做Resilient Distributed Dataset (RDD)弹性数据集。其中,RDD有两种创建方式:(1)、从Hadoop的文件系统输入(例如HDFS);(2)、有其他已存在的RDD转换得到新的RDD;下面进行简单的测试: 1. 进入SPARK...原创 2015-10-24 00:10:14 · 105 阅读 · 0 评论 -
Spark Shell各种操作及详细说明
并行化scala集合(Parallelize) //加载数据1~10val num=sc.parallelize(1 to 10)//每个数据项乘以2,注意 _*2记为一个函数(fun)val doublenum = num.map(_*2)//内存缓存数据doublenum.cache()//过滤数据,每个数据项 % 3 为0的数据为结果集;...原创 2015-10-24 00:11:08 · 262 阅读 · 0 评论 -
spark rdd 转换过程
从一个简单的例子,来看rdd的演化,和stage是如何生成的(过程灰常之复杂和抽象,请参考附件的图来理解) Java代码 object BaiWordCount2 { def main(args: Array[String]) { ..... // Create the context val ssc = ne...原创 2015-10-25 00:06:12 · 172 阅读 · 0 评论 -
Spark 启动脚本——启动总结
1. 设置主目录和配置目录2. 启动Mastersbin/spark-daemon.sh start org.apache.spark.deploy.master.Master 1 --ip $SPARK_MASTER_IP --port $SPARK_MASTER_PORT --webui-port $SPARK_MASTER_WEBUI_PORT3. 启动slaves单实例...原创 2015-10-25 00:06:45 · 92 阅读 · 0 评论 -
Spark 启动脚本——sbin/slaves.sh
1. 如果参数小于1,返回。格式:slaves.sh [--config <conf-dir>] command...2. 执行sbin/spark-config.sh,加载基本环境变量3. 设置HOSTLIST为变量$SPARK_SLAVES的值4. 如果存在,获取--config参数,即配置文件目录,目录不存在则返回5. 执行conf/spark-env.sh...原创 2015-10-25 00:07:00 · 130 阅读 · 0 评论 -
Spark 启动脚本——sbin/start-slaves.sh
1. 运行sbin/spark-config.sh,设置SPARK_HOME和SPARK_CONF_DIR2. 如果conf/spark-env.sh,则运行该脚本,设置可选环境变量3. 检测环境变量SPARK_MASTER_PORT/SPARK_MASTER_IP,为master的端口/ip,默认为7077/{hostname}以上三项基本同start-master.sh相同 ...原创 2015-10-25 00:07:43 · 262 阅读 · 0 评论 -
Spark中的编程模型
1. Spark中的基本概念在Spark中,有下面的基本概念。Application:基于Spark的用户程序,包含了一个driver program和集群中多个executorDriver Program:运行Application的main()函数并创建SparkContext。通常SparkContext代表driver programExecutor:为某Application运行...原创 2015-10-26 00:02:28 · 102 阅读 · 0 评论