Spark
zjh_746140129
这个作者很懒,什么都没留下…
展开
-
hadoop集群下spark环境配置并且完成wordcount案例
注:完成此案例需要hadoop环境(单机、伪分布式、集群)都可以,hadoop环境搭建可以参考笔者博客。一、操作步骤①spark安装配置环境变量②新建一个txt文件写入数据③完成wordcount统计案例二、详细步骤1、下载spark(spark-2.3.0-bin-hadoop2.7.tgz):http://spark.apache.org/downloads.html2、解压spark并重命名...原创 2018-05-20 20:37:36 · 763 阅读 · 0 评论 -
Spark基本架构及原理
目标:Spark概述Spark基本概念运行流程及特点spark 与 hadoopRDD运行流程Spark三大类算子Spark StreamingSpark概述:Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类 Hadoop MapRedduce的通用并行框架,Spark拥有Ha...原创 2018-05-26 18:16:06 · 6572 阅读 · 0 评论 -
Spark中RDD的Value型Transformation算子操作(一)
Spark算子大致上可分为三大类算子:Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Value型的数据。Key-Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Key-Value型的数据。Action算子,这类算子会触发SparkContext提交作业。...原创 2018-05-26 21:41:54 · 1180 阅读 · 0 评论 -
Spark中RDD的Key-Value型Transformation算子操作(二)
Spark算子大致上可分为三大类算子: Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Value型的数据。 Key-Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Key-Value型的数据。 Action算子,这类算子会触发SparkContext提交作业。1、map数据集中的每个...原创 2018-05-26 21:56:10 · 638 阅读 · 0 评论 -
Spark中Actionn算子操作(三)
Spark算子大致上可分为三大类算子: Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Value型的数据。 Key-Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Key-Value型的数据。 Action算子,这类算子会触发SparkContext提交作业。1、foreach打印输...原创 2018-05-26 22:03:45 · 569 阅读 · 0 评论