Spark
文章平均质量分 76
YQlakers
这个作者很懒,什么都没留下…
展开
-
Spark的几种运行模式及shell测试
Spark的几种运行模式:local单机模式:结果xshell可见:./bin/spark-submit --class org.apache.spark.examples.SparkPi --master local[1] ./lib/spark-examples-1.3.1-hadoop2.4.0.jar 100standalone集群模式:需要的配置项原创 2017-05-25 22:09:27 · 3236 阅读 · 0 评论 -
flatmap和map的区别
map()是将函数用于RDD中的每个元素,将返回值构成新的RDD。flatmap()是将函数应用于RDD中的每个元素,将返回的迭代器的所有内容构成新的RDD,这样就得到了一个由各列表中的元素组成的RDD,而不是一个列表组成的RDD。有些拗口,看看例子就明白了。val rdd = sc.parallelize(List("coffee panda","happy panda","转载 2017-06-11 16:30:52 · 15387 阅读 · 0 评论 -
Spark RDD API详解
RDD是什么?RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,Spark应用程序所做的无非是把需要处理的数据转换为RDD,然后对RDD进行一系列的变换和操作从而得到结果。本文为第一部分,将介绍S转载 2017-06-11 16:13:58 · 384 阅读 · 0 评论 -
基于zookeeper的Spark高可用集群配置
首先我们这里配置的三台机器的集群 名称分别为hadoop、hadoop1、hadoop2首先是安装Zookeeper:(1)下载Zookeeper:http://apache.claz.org/zookeeper ... keeper-3.4.5.tar.gz(2)解压到/root/install/目录下(3)创建两个目录,一个是数据目录,一个日志目录 (4原创 2017-06-01 16:27:31 · 2573 阅读 · 0 评论 -
sparkStreaming Window
package com.spark.study.streaming;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.function.Function;import原创 2017-06-05 21:07:07 · 623 阅读 · 0 评论 -
spark实时计算kafka消息队列中的wordcount
package sparkTestJava;import java.util.Arrays;import java.util.HashMap;import java.util.HashSet;import java.util.Map;import java.util.Set;import kafka.serializer.StringDecoder;import org.apa原创 2017-06-05 16:34:41 · 2004 阅读 · 0 评论 -
SparkStreaming实现HDFS的wordCount(java版)
利用sparkstreaming实现hdfs文件系统中的某个目录下的wordcount代码如下:package sparkTestJava;import java.util.Arrays;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunction;impo原创 2017-06-05 15:36:52 · 2352 阅读 · 2 评论 -
python、scala、java分别实现在spark上实现WordCount
下面分别贴出python、scala、java版本的wordcount程序:python版:import loggingfrom operator import addfrom pyspark import SparkContextlogging.basicConfig(format='%(message)s', level=logging.INFO)#import lo原创 2017-06-05 11:40:04 · 1813 阅读 · 0 评论 -
Spark on yarn和Hadoop on yarn的区别
Apache Spark 的高性能一定程度上取决于它采用的异步并发模型(这里指server/driver 端采用的模型),这与 Hadoop 2.0(包括 YARN 和MapReduce)是一致的。Hadoop 2.0 自己实现了类似 Actor 的异步并发模型,实现方式是 epoll+状态机,而 Apache Spark 则直接采用了开源软件Akka,该软件实现了 Actor 模型,性能非常高。原创 2017-05-31 10:30:59 · 3530 阅读 · 0 评论 -
Spark术语解释
Spark术语解释Application:基于Spark的用户程序,包含了driver程序和集群上的executorDriver program:运行main函数并且创建SparkContext的程序Cluster Manager:在集群上获取资源的外部服务(例如standlone,Mesos,Yarn)Worker Node:集群中原创 2017-05-27 10:21:01 · 780 阅读 · 0 评论 -
spark中RDD的转化操作和行动操作
本文主要是讲解spark里RDD的基础操作。RDD是spark特有的数据模型,谈到RDD就会提到什么弹性分布式数据集,什么有向无环图,本文暂时不去展开这些高深概念,在阅读本文时候,大家可以就把RDD当作一个数组,这样的理解对我们学习RDD的API是非常有帮助的。本文所有示例代码都是使用scala语言编写的。 Spark里的计算都是操作RDD进行,那么学习RDD的第一个问题就是如何构建RD转载 2017-07-25 10:35:56 · 9626 阅读 · 0 评论