大数据---spark
yinni11
这个作者很懒,什么都没留下…
展开
-
Spark从零开始
---第1章Spark介绍Spark是一个快速(扩充了流行的MapReduce计算模型,基于内存计算)且通用(容纳了其他分布式系统拥有的功能)的集群计算平台. Spark的组件:SparkCore:包含Spark的基本功能,比如任务调度,内存管理,容错机制.定义了RDD(弹性分布式数据集),提供了API来创建和操作RDD. SparkSQL:处理结构化数据的库. SparkSt...转载 2019-06-20 15:23:06 · 106 阅读 · 0 评论 -
Spark基础
1.Spark的开发语言是Scala,而Scala需要运行在JVM之上,因而搭建Spark的运行环境应该包括JDK和Scala。安装JDK 自Spark2.0.0版本开始,Spark已经准备放弃对Java 7的支持,所以我们需要选择Java 8。我们还需要使用命令getconf LONG_BIT查看linux机器是32位还是64位,然后下载相应版本的JDK并安装。...转载 2019-06-26 11:40:15 · 150 阅读 · 0 评论 -
Spark基础与Java Api介绍
一、Spark简介 1、什么是Spark 发源于AMPLab实验室的分布式内存计算平台,它克服了MapReduce在迭代式计算和交互式计算方面的不足。 相比于MapReduce,Spark能充分利用内存资源提高计算效率。 2、Spark计算框架 Driver程序启动很多workers,然后workers在(分布式)文件系统中读取数据后转化为RDD(弹性分布...转载 2019-06-26 12:08:05 · 187 阅读 · 0 评论 -
应用端使用spark Laucher发送请求spark请求
1.spark在命令行提交请求spark-submit1.使用spark Laucher来提交应用端的请求。参数1:conf.spark.yarn.jars = hdfs://hadoop 使用之前提交到2. 大数据平台下载hadoop相关的xml配置文件 需要的配置文件: echo $HADOOP_HOME 可以查询到hadoop安装的目录:...原创 2019-07-11 19:41:08 · 471 阅读 · 0 评论