spark
天一涯
希望每天都有新收获~
展开
-
Spark Programming Guide
本文主要内容来源于spark官网:http://spark.apache.org/docs/1.6.0/programming-guide.htmlOverview每个Spark应用程序都包含一个驱动程序,该程序运行用户的Main函数并在集群上执行各种并行操作。Spark提供的最主要抽象是弹性分布式数据集(RDD)关于RDD这里不再详细写了。Spark中的第二个抽象是可以在并行操作中使用的共享变量,Spark支持两种类型的共享变量:广播变量(将值缓存到所有节点的内存中)和累加器(仅“添加”到其上原创 2020-08-23 18:18:22 · 500 阅读 · 0 评论 -
关于SparkContext
1.SparkContext是spark功能的入口,代表与spark集群的连接,能够用来在集群上创建RDD、累加器、广播变量2.每个JVM里只能存在一个处于激活状态的SparkContext,在创建新的SparkContext之前必须调用stop()来关闭之前的SparkContext3. SparkConf包含了Spark集群配置的各种参数,对于一般简单应用,只需要传递下面两个参数:集群URL:告诉Spark如何连接到集群上。比如“local”表示在本地运行,“local[4]”表示以4核..原创 2020-08-23 17:21:29 · 1027 阅读 · 0 评论 -
初识spark
1.Spark的组成SparkCore:将分布式数据抽象为弹性分布式数据集(RDD),实现了应用任务调度、RPC、序列化和压缩,并为运行在其上的上层组件提供API。SparkSQL:Spark Sql 是Spark来操作结构化数据的程序包,可以让我使用SQL语句的方式来查询数据,Spark支持 多种数据源,包含Hive表,parquest以及JSON等内容。SparkStreaming:是Spark提供的实时数据进行流式计算的组件。MLlib:提供常用机器学习算法的实现库。GraphX.原创 2020-08-03 21:39:00 · 362 阅读 · 0 评论 -
Spark算子详解及案例分析
原文:https://cloud.tencent.com/developer/article/1085207目录一、分类二、Value型Transformation算子三、Key-Value型Transformation算子输入输出分区1对1聚集连接四、Actions算子一、分类1、Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Value型的数据。 2、Key-Value数据类型的Transformation算原创 2020-08-22 20:29:26 · 1229 阅读 · 0 评论 -
Spark快速入门
本文主要内容来源于官方Spark Quick Start一、交互式分析1、BasicSpark Shell可以使用scala或python访问,Scala打开方式:./bin/spark-shellPython打开方式:./bin/pyspark翻译 2020-08-22 20:03:47 · 418 阅读 · 0 评论